pytorch自带数据集MNIST

一、简介

pytorch自带的数据集由两个上层api提供,分别是torchvision和torchtext,其中:

1、torchvision提供了对图片数据处理相关的api和数据

      数据位置:torchvision.datasets,例如:torchvision.datasets.MNIST(手写数字图片数据)

2、torchtext提供了对文本数据处理相关的api和数据

     数据位置:torchtext.datasets,例如:torchtext.datasets.IMDB(电影评论文本数据)

也Mnist手写数据为例,看pytorch如何加载自带数据集

1、准备好Dataset实例

2、把dataset交给dataloader打乱顺序,组成batch

二、torchvieriosn.datasets

torchversion.datasets中的数据集类(比如torchvision.datasets.MNIST),都是继承自Dataset,意味首:直接对torchvision.datasets.MNIST进行实例化就可以得到Dataset的实例,但是MNIST API中的参数需要注意一下:

 torchvision.datasets.MNIST(root='./data',train=True,download=True,transform=)

1、root参数表示数据存放的位置、

2、trani:bool类型,表示是使用训练集的数据还是测试集的数据

3、download:bool类型,表示是否需要下载数据到root目录

4、transform:实现对图片的处理函数

三、MNIST数据集的介绍

MNIST是由Yann LeCun等人提供的免费的图像识别数据集,其中包括60000个训练样本和10000个测试样本,其中图片尺寸已经进行标准化处理,都是黑白的图像,大小为28*28,,

执行以下代码,可以下载数据集

import torchvision
from torchvision.datasets import MNIST

#pytorch自带手写数字数据集
mnist = MNIST(root='./data',train=True,download=True)
#print(mnist)

print(mnist[0])
img = mnist[0][0]
img.show()

 

posted @ 2024-02-04 11:49  ziff123  阅读(75)  评论(0编辑  收藏  举报