数据文件格式对读写速度的影响

why-----一劳永逸

在实际操作的时候会发现, 如果直接将大量的图片存储在硬盘上, 那么训练时由于需要反复读取数据,所花费的时间会比较大.
所以, 将图片和label都在本地处理好, 存储为npy(二进制)的格式, 训练时直接从读取npy文件操作即可.

npy文件最优

  1. npy:读写都快,占用空间少;
  2. Pickle:读写慢,而且占空间,如果存储的不是对象而是一个numpy数组,最好不要使用pickle;
  3. npz:写读相对慢一些,适用于保存多个array的情况;
  4. hdf:读写相对都没有npy快,存储空间也没有优势,适用于分布式平台。

数据结构和文件格式

  1. 数据结构: 数据存储时的组织结构,如ndarray数据结构, 字典数据结构
  2. 文件格式: 文件类型,如.npy,二进制文件格式, json文件格式

实例

ms-g3d: 处理源数据并保存npy格式
alphapose: 处理源数据并保存h5格式

posted @ 2020-12-04 14:59  Parallax  阅读(1026)  评论(0编辑  收藏  举报