训练技巧之数据集太多，加载太慢怎么办？-369IT编程

admin管理员组
文章数量:1026989

1. 背景

训练集全是16x16，32x32之类的小图，达到上千万张，训练时发现数据加载很慢很慢很慢！！！看了下CPU 内存 GPU使用情况，发现CPU使用率都跑到90%去了，GPU使用率却较低

2. 解决方法

2.1 预处理提速

尽量减少每次读取数据时的预处理操作，可以考虑把一些固定的操作，例如 resize ，事先处理好保存下来，训练的时候直接拿来用
Linux上将预处理搬到GPU上加速：
NVIDIA/DALI ：https://github/NVIDIA/DALI

2.2 IO提速

2.2.1 使用更快的图片处理

opencv 一般要比 PIL 要快
对于 jpeg 读取，可以尝试 jpeg4py
存 bmp 图（降低解码时间）

2.2.2 小图拼起来存放（降低读取次数）

对于大规模的小文件读取，建议转成单独的文件，可以选择的格式可以考虑：TFRecord（Tensorflow）、recordIO（recordIO）、hdf5、 pth、n5、lmdb 等等

2.3 预读取数据

预读取下一次迭代需要的数据，参考给pytorch 读取数据加速

2.4 借助内存

直接载到内存里面，或者把把内存映射成磁盘好了，参考如何给你PyTorch里的Dataloader打鸡血

2.5 借助固态

把读取速度慢的机械硬盘换成 NVME 固态吧～

3. 最后

1. 背景

2. 解决方法

2.1 预处理提速

尽量减少每次读取数据时的预处理操作，可以考虑把一些固定的操作，例如 resize ，事先处理好保存下来，训练的时候直接拿来用
Linux上将预处理搬到GPU上加速：
NVIDIA/DALI ：https://github/NVIDIA/DALI

2.2 IO提速

2.2.1 使用更快的图片处理

opencv 一般要比 PIL 要快
对于 jpeg 读取，可以尝试 jpeg4py
存 bmp 图（降低解码时间）

2.2.2 小图拼起来存放（降低读取次数）

对于大规模的小文件读取，建议转成单独的文件，可以选择的格式可以考虑：TFRecord（Tensorflow）、recordIO（recordIO）、hdf5、 pth、n5、lmdb 等等

2.3 预读取数据

预读取下一次迭代需要的数据，参考给pytorch 读取数据加速

2.4 借助内存

直接载到内存里面，或者把把内存映射成磁盘好了，参考如何给你PyTorch里的Dataloader打鸡血

2.5 借助固态

把读取速度慢的机械硬盘换成 NVME 固态吧～

3. 最后

本文标签：太多太慢加载技巧数据

版权声明：本文标题：训练技巧之数据集太多，加载太慢怎么办？内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://it.en369.cn/jiaocheng/1728413746a858634.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

Android通过蓝牙发送数据到Windows PC电脑：Java实现

2月前

Android通过蓝牙发送数据到Windows PC电脑：Java实现 Android手机设备之间通过蓝牙连接然后发送数据，这在我之前的蓝牙专栏里面有介绍，详情见专栏&am

shp地图如何导入奥维地图手机_奥维地图如何导入路线数据？

2月前

【www.520z-2 - 话题作文】篇一:《手机奥维互动地图使用经验以及操作指南》手机奥维互动地图使用经验以及操作指南(支持IOS、Android、WP8) 作者：[路游] (@[路游]，若介意侵权请联系，告知后立即删除) 来源：新丝

大数据技术十大核心原理

2月前

一、数据核心原理——从“流程”核心转变为“数据”核心大数据时代，计算模式也发生了转变，从“流程”核心转变为“数据”核心。hadoop体系的分布式计算框架已经是“数据”为核心的范式。非结构化数据

大数据时代十大热门IT岗位

2月前

新的想法诞生新的技术，从而造出许多新词，云计算、大数据、BYOD、社交媒体、3D打印机、物联网……在互联网时代，各种新词层出不穷，令人应接不暇。这些新的

使用 ReclaiMe Pro 恢复群晖 Synology NAS 设备数据

1月前

ReclaiMe Pro 软件提供对复杂阵列的分析及恢复功能。对于复杂的智能存储设备 ReclaiMe Pro 提供了一键式识别阵列信息的功能。为用户免去了使用其他数据恢复软件所要求的复杂软件应用技巧。如何使用 ReclaiMe Pro

Word页眉空白页删除技巧详解

1月前

Word页眉空白页删除技巧详解在Word文档中，页眉是一个重要的组成部分，它位于每个页面的顶部区域，常用于展示文档的标题、作者、页码等信息。然而，在使用Word编辑文档时，有时会遇到页眉区域上方出现空白页的情况。这种空白页不仅影响文档的

影刀---实现我的第一个抓取数据的机器人

1月前

你们要的csdn自动回复机器人在这里文末哦！ 这个上传的资源要vip下载，如果想了解影刀这个软件的话可以私聊我，我发你目录 1.网页对象2.网页元素3.相似元素组4.元素

Win11商店无法加载页面怎么办 Win11应用商店打不开怎么办

1月前

很多用户都升级了Win11系统，升级了系统就想要下载一些新的软件来丰富自己的系统。但是升级了Win11系统之后就无法加载应用商店的界面了，打不开微软的应用商店该怎么办呢?小编给大家带来了一个解决办

Office常用办公技巧

1月前

本文分享了一些常用的Office（Word、Excel和PPT）办公技巧，希望能解决您工作中遇到的小问题~~目录 1 Word在指定区间编辑页码2 删除Word页眉上的横

ChatGPT 使用教程：深度探索AI常用功能技巧

1月前

文章目录前言一、ChatGPT介绍1.1 人工智能与自然语言处理的发展1.2 ChatGPT 的诞生与意义二、ChatGPT 基础入门2.1 注册与登录2.2 对话界面介绍2.3 基本提问方式三、常用功能详解3.1 文本生成3.2 问

Word页码自动排序全攻略：轻松掌握文档页码设置技巧

1月前

Word页码自动排序全攻略：轻松掌握文档页码设置技巧在日常办公中，Word文档是我们处理文字信息的重要工具。无论是撰写报告、论文还是制作各类文案，页码的设置都是不可或缺的一环。特别是在长文档中，页码不仅能够帮助读者快速定位内容，还能提升

【电脑技巧】电脑进入安全模式的方法

1月前

在使用电脑时，难免会遇到一些系统问题，例如死机、蓝屏等等，这时我们需要进入安全模式来解决这些问题。那么，电脑进入安全模式的方式有哪些呢&#xff

使用Charles抓包Android App数据

1月前

版权归作者所有，如有转发，请注明文章出处：https:cyrus-studio.github.ioblog 抓包环境准备 1. 下载安装charles charl

数据分析师必看，盘点最常用的四种数据统计分析方法

1月前

在当今数据驱动的商业环境中，数据分析已成为企业获取竞争优势的关键工具。随着数据量的不断增加，企业面临着前所未有的机遇与挑战。通过有效的数据分析，企业可以优化运营效率、提高客户

Outlook技巧：如何插入可以用指定浏览器打开的链接

1月前

Outlook中的链接，有时直接点击无法打开，找本地Edge才能打开。如何让Url能够指定打开的浏览器呢？ 插入链接时，直接加上前缀Microsoft

cocoscreator 浏览器调试技巧

1月前

1：查看下载文件的顺序和时间, 点下面的时间线会切换到不同的文件，同样的方式也可查看http的请求 2：查看websocket的请求， 上面的步骤&am

Word页码设置技巧：如何从第三页或任意页开始编号

24天前

Word页码设置技巧：如何从第三页或任意页开始编号在撰写长篇出版物（如论文、著作、小说等）时，我们经常会遇到需要设置页码从某一特定页开始的问题。例如，通常我们希望书籍的前两页（包含书名、简介和目录）不显示页码，而从正文开始的第三页或任意

电脑屏幕出现竖线？六种修复技巧帮你忙

22天前

不少计算机用户可能会遇到屏幕上莫名出现垂直线条的问题。这些线条可能出现在显示器的中间或边缘，它们可能是单色或者彩色。无论是笔记本电脑还是台式电脑，都可能遭遇此类状况。本文将探讨导致这一现象的常见原

Window 10 系统EDGE浏览器使用IE模式加载页面

22天前

1、在EDGE浏览器地址输入页面，直接打开页面 2、在浏览器右上角三个点，点击展开，点击使用IE模式下重新加载 3、在弹出的提示框中，勾选下次再IE模式

【愚公系列】2024年02月大数据教学课程 016-Hadoop预备知识

21天前

🏆 作者简介，愚公搬代码 🏆《头衔》：华为云特约编辑，华为云云享专家，华为开发者专家&#xff0

369IT编程

训练技巧之数据集太多，加载太慢怎么办？

1. 背景

2. 解决方法

2.1 预处理提速

2.2 IO提速

2.2.1 使用更快的图片处理

2.2.2 小图拼起来存放（降低读取次数）

2.3 预读取数据

2.4 借助内存

2.5 借助固态

3. 最后

1. 背景

2. 解决方法

2.1 预处理提速

2.2 IO提速

2.2.1 使用更快的图片处理

2.2.2 小图拼起来存放（降低读取次数）

2.3 预读取数据

2.4 借助内存

2.5 借助固态

3. 最后

更多相关文章

Android通过蓝牙发送数据到Windows PC电脑：Java实现

shp地图如何导入奥维地图手机_奥维地图如何导入路线数据？

大数据技术十大核心原理

大数据时代十大热门IT岗位

使用 ReclaiMe Pro 恢复群晖 Synology NAS 设备数据

Word页眉空白页删除技巧详解

影刀---实现我的第一个抓取数据的机器人

Win11商店无法加载页面怎么办 Win11应用商店打不开怎么办

Office常用办公技巧

ChatGPT 使用教程：深度探索AI常用功能技巧

Word页码自动排序全攻略：轻松掌握文档页码设置技巧

【电脑技巧】电脑进入安全模式的方法

使用Charles抓包Android App数据

数据分析师必看，盘点最常用的四种数据统计分析方法

Outlook技巧：如何插入可以用指定浏览器打开的链接

cocoscreator 浏览器调试技巧

Word页码设置技巧：如何从第三页或任意页开始编号

电脑屏幕出现竖线？六种修复技巧帮你忙

Window 10 系统EDGE浏览器使用IE模式加载页面

【愚公系列】2024年02月 大数据教学课程 016-Hadoop预备知识

发表评论

推荐文章

javascript - How do I get full logs out of aws lambda invoke? - Stack Overflow

javascript - Google AnnotatedTimeLine: &quot;Error: Container width is zero. Expecting a valid width.&quot; - Stack Over

templates - Why is wordpress searching for @2x images?

javascript - How to open the native iOS share modal from a link on a webpage? - Stack Overflow

javascript - Uncaught TypeError: Cannot read property &#39;focus&#39; of undefined, even though focus is being called -

热门文章

javascript - Make Edit button function work properly - Stack Overflow

json - Jolt transformation to add count to event object in array object - Stack Overflow

How can I style individual table cells for Markdown to HTML conversion using Pandoc? - Stack Overflow

multisite - Configure redirects with web.config

metadata - Error During &#39;Sugar Deploy&#39; on Solana Devnet (Using Sugar V2)Cant finish deploy of my NFTs on Solana

Redirect each user to specific pages based on their role

javascript - How to only show video canvas using react-webcam - Stack Overflow

unit testing - Pest tests in Laravel 11 returns 404 - Stack Overflow

html - Error with javascript 500 Internal Server Error - Stack Overflow

javascript - Alternating row colours with nth-child and nth-of-type - Stack Overflow

最新文章

windows设置断电重启开机后自动输入锁屏密码登录

Windows系统设置开机默认开启数字小键盘

Windows11 开机自动同步时间（开机时间不更新问题）

windows配置开机自启动软件或脚本

【Redis】Windows设置Redis为开机自启动

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

javascript - Type &#39;undefined&#39; is not assignable to type &#39;menuItemProps[]&#39; - Stack Overflow

javascript - VS 2015 Angular 2 import modules cannot be resolved - Stack Overflow

javascript - Get the JSON objects that are not present in another array - Stack Overflow

javascript - How to dismiss a phonegap notification programmatically - Stack Overflow

c - Solaris 10 make Error code 1 Fatal Error when trying to build python 2.7.16 - Stack Overflow

【愚公系列】2024年02月大数据教学课程 016-Hadoop预备知识

javascript - Google AnnotatedTimeLine: "Error: Container width is zero. Expecting a valid width." - Stack Over

javascript - Uncaught TypeError: Cannot read property 'focus' of undefined, even though focus is being called -

metadata - Error During 'Sugar Deploy' on Solana Devnet (Using Sugar V2)Cant finish deploy of my NFTs on Solana

javascript - Type 'undefined' is not assignable to type 'menuItemProps[]' - Stack Overflow