ML - 数据集(Datasets)
一些常见的入门数据集
MNIST
MNIST(Mixed National Institute of Standards and Technology database)是一个计算机视觉数据集。
- 官方下载地址:http://yann.lecun.com/exdb/mnist/
- 包含70000张手写数字的灰度图片,其中60000张为训练图像和10000张为测试图像;
- 每一张图片都是28*28个像素点大小的灰度图像;
MNIST数据集分为四个部分:
Training set images: train-images-idx3-ubyte.gz (9.9 MB, 解压后 47 MB, 包含 60,000 个样本)
Training set labels: train-labels-idx1-ubyte.gz (29 KB, 解压后 60 KB, 包含 60,000 个标签)
Test set images: t10k-images-idx3-ubyte.gz (1.6 MB, 解压后 7.8 MB, 包含 10,000 个样本)
Test set labels: t10k-labels-idx1-ubyte.gz (5KB, 解压后 10 KB, 包含 10,000 个标签)
Fashion MNIST数据集
- 经典 MNIST 数据集(常用作计算机视觉机器学习程序的“Hello, World”入门数据集)的简易替换
- 包含训练数据60000个,测试数据10000个,每个图片是28x28像素的灰度图像,涵盖10个类别
- https://keras.io/datasets/#fashion-mnist-database-of-fashion-articles
- TensorFlow:https://www.tensorflow.org/api_docs/python/tf/keras/datasets/fashion_mnist
- GitHub:https://github.com/zalandoresearch/fashion-mnist
Fashion MNIST数据集与MNIST 数据集的图像格式相同(灰度图像,28x28像素)。
但使用 Fashion MNIST 实现多样化,比常规 MNIST 更具挑战性。
这两个数据集都相对较小,用于验证某个算法能否如期正常运行。它们都是测试和调试代码的良好起点。
MovieLens
主页:https://grouplens.org/datasets/movielens/
下载:http://files.grouplens.org/datasets/movielens/
- 是一个关于电影评分的数据集,里面包含了从IMDB(The Movie DataBase)得到的用户对电影的评分信息。
- 经常被用来做推荐系统、机器学习算法的测试数据集。
- 对应不同数据量,有1M、10M、20M、latest等多个版本。
参考消息:
- MovieLens数据集:https://blog.csdn.net/GZHermit/article/details/74231557
- 用pandas探索Movielens数据集:https://blog.csdn.net/u013527419/article/details/53264741
CIFAR-10
主页:http://www.cs.toronto.edu/~kriz/cifar.html
下载(CIFAR-10 python version):http://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz
微型图像集,将识别的范围扩大到普适物体。
该图像集由60,000张32×32的RGB彩色图片构成,共10个大分类,其中50,000张图片用作训练,另外随机抽取10,000张用作测试(交叉验证)。
CIFAR-10在深度学习等领域非常有影响力,是很多人 “深度学习”实战的起点。
UCI机器学习库(UC Irvine Machine Learning Repository)
The UCI Machine Learning Repository is a collection of databases, domain theories, and data generators that are used by the machine learning community for the empirical analysis of machine learning algorithms.
- HomePage:https://archive.ics.uci.edu/ml/index.php
- About:https://archive.ics.uci.edu/ml/about.html
- Machine Learning Repository:https://archive.ics.uci.edu/ml/datasets.html
- all data sets:https://archive.ics.uci.edu/ml/machine-learning-databases/
awesome-public-datasets
This list of a topic-centric public data sources in high quality.
They are collected and tidied from blogs, answers, and user responses.
Most of the data sets listed below are free, however, some are not.
Other amazingly awesome lists can be found in sindresorhus's awesome list.
框架自带
scikit-learn的自带数据集
- https://scikit-learn.org/stable/auto_examples/#dataset-examples
- https://scikit-learn.org/stable/auto_examples/#examples-based-on-real-world-datasets
keras的自带数据集
TensorFlow的自带数据集
- tf.keras.datasets:https://www.tensorflow.org/api_docs/python/tf/keras/datasets/
竞赛数据集
- 从Kaggle下载数据集:https://www.kaggle.com/datasets
- 天池数据集:https://tianchi.aliyun.com/dataset/
其他
- 各领域公开数据集:https://zhuanlan.zhihu.com/p/25138563
- 推荐系统常用数据集:https://www.cnblogs.com/shenxiaolin/p/8337913.html
- 世界最大的社会科学文献网站,包含大量数据集:https://www.icpsr.umich.edu/icpsrweb/ICPSR/
- Computer Vision Resource:http://www.cvpapers.com/datasets.html
行动是绝望的解药!
欢迎转载和引用,但请在明显处保留原文链接和原作者信息!
本博客内容多为个人工作与学习的记录,少数内容来自于网络并略有修改,已尽力标明原文链接和转载说明。如有冒犯,即刻删除!
以所舍,求所得,有所获,方所成。