数据文件格式对读写速度的影响
why-----一劳永逸
在实际操作的时候会发现, 如果直接将大量的图片存储在硬盘上, 那么训练时由于需要反复读取数据,所花费的时间会比较大.
所以, 将图片和label都在本地处理好, 存储为npy(二进制)的格式, 训练时直接从读取npy文件操作即可.
npy文件最优
- npy:读写都快,占用空间少;
- Pickle:读写慢,而且占空间,如果存储的不是对象而是一个numpy数组,最好不要使用pickle;
- npz:写读相对慢一些,适用于保存多个array的情况;
- hdf:读写相对都没有npy快,存储空间也没有优势,适用于分布式平台。
数据结构和文件格式
- 数据结构: 数据存储时的组织结构,如ndarray数据结构, 字典数据结构
- 文件格式: 文件类型,如.npy,二进制文件格式, json文件格式
实例
ms-g3d: 处理源数据并保存npy格式
alphapose: 处理源数据并保存h5格式