DataLoader
导包:from torch.utils.data import DataLoader
DataLoader是Pytorch中用来处理模型输入数据的一个工具类。组合了数据集(dataset) + 采样器(sampler),并在数据集上提供单线程或多线程(num_workers )的可迭代对象。
1、重要参数
1 epoch:所有的训练样本输入到模型中称为一个epoch;
2 iteration:一批样本输入到模型中,称为一个Iteration;
3 batchszie:批大小、批尺寸,决定一个epoch有多少个Iteration;
4 迭代次数(iteration)= 样本总数(epoch)/批尺寸(batchszie)
5 dataset (Dataset) – 决定数据从哪读取或者从何读取;
6 batch_size (python:int, optional) – 批尺寸(每次训练样本个数,默认为1),听说是2的幂次可以发挥更好的性能(32,64,128,256)
7 shuffle (bool, optional) – 每一个 epoch是否为乱序 (default: False);
8 num_workers (python:int, optional) – 是否多进程读取数据(默认为0);
9 drop_last (bool, optional) – 当样本数不能被batchsize整除时,最后一批数据是否舍弃(default: False)
10 pin_memory(bool, optional) - 如果为True会将数据放置到GPU上去(默认为false)