深度学习中常用的开源数据集

Kaggle（https://www.kaggle.com/datasets）：Kaggle 是一个著名的数据科学竞赛平台，也提供了大量的开放数据集供用户下载和使用。
UCI Machine Learning Repository（https://archive.ics.uci.edu/datasets）：UCI Machine Learning Repository 是加州大学欧文分校维护的一个机器学习数据集的知名资源库，包含了各种类型的数据集。
Google Dataset Search（https://datasetsearch.research.google.com/）：Google Dataset Search 是谷歌推出的一个搜索引擎，专门用于搜索和获取各种开放数据集。它可以帮助用户找到全球范围内的公开数据集。
GitHub（https://github.com）：GitHub 是一个广泛使用的代码托管平台，上面有很多开源项目，包括数据集。你可以通过搜索关键词加上"data"或者"dataset"来找到相关的数据集项目。
OpenML（https://www.openml.org/）：OpenML 是一个面向机器学习的开源数据平台，提供了大量的机器学习数据集，同时还支持用户上传和共享数据集。
Data.gov（https://data.gov）：Data.gov 是美国政府提供的一个开放数据门户，提供了各个领域的政府数据集，包括经济、人口、气候、教育等等。
和鲸（Whale & JONES）：https://www.heywhale.com/home/dataset是一个提供高质量数据集和数据工具的数据平台。它为数据科学家、分析师和开发人员提供了一个集中获取、管理和分享数据的平台。和鲸数据集库：和鲸提供了丰富多样的数据集库，包括金融、社交媒体、电子商务、医疗等各个领域的数据集。用户可以通过搜索和筛选找到适合自己需求的数据集。
————————————————

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/2301_77470034/article/details/139877910

图像分类
1.MNIST
http://yann.lecun.com/exdb/mnist/

MNIST 数据集是机器学习和计算机视觉领域中最著名的数据集之一，常用于训练各种图像处理系统。

MNIST 数据集包含了 70,000 张小型的黑白图像，每张图像的大小是 28x28 像素。每个图像都是手写数字（0到9）的一个实例。

它非常适合初学者练习图像分类技术和卷积神经网络（CNN）等算法。

图片

2.CIFAR-10
CIFAR-10 数据集是另一种在机器学习和计算机视觉研究领域广泛使用的标准数据集。

https://www.cs.toronto.edu/~kriz/cifar.html

它由加拿大高级研究院（Canadian Institute For Advanced Research, CIFAR）发布，因此得名 CIFAR。CIFAR-10 特别适用于开发和测试图像识别算法。

CIFAR-10 包含 60,000 张 32x32 像素的彩色图像，这些图像被分为 10 个类别，每个类别各 6,000 张图像。这些类别包括：飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车。

图片

3.ImageNet
https://www.image-net.org/

ImageNet 数据集是一个大规模的图像数据集，广泛用于计算机视觉研究和各种图像处理算法的训练和测试。

这个数据集由斯坦福大学的研究人员启动和维护，包含超过 1400 万张图片和超过 20,000 个类别。

它用于大规模视觉识别挑战和训练深度学习模型。

图片

4.fashion-mnist
Fashion-MNIST 数据集是由 Zalando（一家德国的时尚科技公司）发布的一个图像数据集，旨在作为机器学习研究中经典的 MNIST 手写数字数据集的直接替代品。

Fashion-MNIST 包含 70,000 张 28x28 像素的灰度图像，这些图像分为 10 个类别，每个类别有 7,000 张图像，这些类别包括：T恤/上衣、裤子、套头衫、连衣裙、外套、凉鞋、衬衫、运动鞋、包和踝靴。

图片

5.CelebA
https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html

CelebA 数据集是一个大型的人脸属性数据集，广泛用于计算机视觉研究中，特别是在面部识别、面部属性识别和面部编辑等领域。

这个数据集由香港中文大学的研究者开发和维护，CelebA 包含超过 200,000 张名人面部的图像，覆盖了大约 10,000 名不同的名人，每张图像都标有 40 种不同的属性（如发型、帽子、眼镜、笑容等），以及 5 个关键点位置（眼睛、鼻子、嘴巴）的标记。

图片

自然语言处理
6.IMDB 评论
https://ai.stanford.edu/~amaas/data/sentiment/

IMDB 评论数据集（Internet Movie Database Review Dataset）是一个广泛用于自然语言处理（NLP）和情感分析研究的数据集。

它包含来自 IMDB 网站的 50,000条电影评论，分为训练集和测试集各 25,000 条，每个评论都是一个文本片段，并且带有一个标签，表示该评论是正面的（positive）还是负面的（negative）。

图片

7.20个新闻组
https://www.kaggle.com/datasets/crawford/20-newsgroups

20 个新闻组数据集由 Ken Lang 编制，包含约 18000 个新闻组文档，分布在 20 个不同的新闻组。

它常用于文本分类和聚类任务。

图片

8.SQuAD
https://rajpurkar.github.io/SQuAD-explorer/

斯坦福问答数据集 (SQuAD) 是一个阅读理解数据集，由众包工作者针对一系列维基百科文章提出的问题组成，其中每个问题的答案都是来自相应段落的一段文本。斯坦福问答数据集包含 100,000 多个用于机器理解的问题。

图片

9.GLUE
https://gluebenchmark.com/

GLUE (General Language Understanding Evaluation) 是一个用于评估自然语言处理（NLP）模型在广泛语言理解任务上的性能的基准数据集。

GLUE 旨在提供一个综合性的评估框架，通过多个不同的NLP任务来测试模型的广泛性和鲁棒性。

10.COCO
https://cocodataset.org/#home

COCO 数据集是一个用于对象检测、分割和图像字幕生成的广泛使用的基准数据集。

它由微软研究院发布，旨在提供丰富的标注数据，用于训练和评估计算机视觉模型。

图片

11.Sentiment140
https://www.kaggle.com/datasets/kazanova/sentiment140

Sentiment140 数据集包含来自Twitter的160万条标注推文。这些推文被标注为正面或负面情感，主要用于训练和评估情感分类模型。

12.Yelp 开放数据集
https://www.yelp.com/dataset

Yelp数据集包含了用户对不同业务的评论、评分、用户信息、业务信息等。它常用于研究和开发推荐系统、情感分析、文本分类和其他NLP任务。

语音识别
13.LibriSpeech
https://www.openslr.org/12/

LibriSpeech 数据集包含约1000小时的英语语音数据，主要用于训练和评估语音识别系统。

该数据集中的音频文件经过高质量的预处理，并且都带有准确的文字转录。

图片

14.VoxCeleb
https://www.robots.ox.ac.uk/~vgg/data/voxceleb/

VoxCeleb 数据集包含大量名人的音频片段，这些片段从 YouTube 视频中提取，并经过仔细的过滤和标注，以确保数据的质量和多样性。

图片

卫生保健
15.Breast Cancer Wisconsin
https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic

Breast Cancer Wisconsin 数据集是一个广泛用于机器学习和数据挖掘领域的医学数据集，主要用于训练和评估分类模型，以区分良性和恶性乳腺肿瘤。

该数据集包含569个样本，每个样本有30个特征，这些特征从细胞核的图像中提取。

图片

推荐系统
16.MovieLens
https://grouplens.org/datasets/movielens/

MovieLens 数据集是一个广泛用于推荐系统研究和开发的电影评分数据集。该数据集由明尼苏达大学的 GroupLens 研究小组创建，包含用户对电影的评分信息。

17.Amazon Product Reviews
https://cseweb.ucsd.edu/~jmcauley/datasets.html#amazon_reviews

Amazon Product Reviews 数据集是一个广泛用于情感分析、推荐系统和其他自然语言处理（NLP）任务的大规模数据集。该数据集包含了来自 Amazon 网站的用户对各种产品的评论和评分信息。
————————————————

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/qq_43556680/article/details/144827123

posted on 2025-02-13 14:39 ExplorerMan 阅读(1243) 评论(0) 收藏举报

刷新页面返回顶部

深度学习中常用的开源数据集

导航

公告