25个深度学习开源数据集

简介

学习深度学习最重要的就是数据集啦。小编在刚开始学习深度学习的时候最头疼的一件事就是没有数据,徒有很多想法,但却无法实现,这里小编给大家介绍25个常用的深度学习开源数据集,这是从国外的一篇博客中看到的,参见https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/。

第一部分  图像类

1、MNIST

链接 http://yann.lecun.com/exdb/mnist/

描述:手写数字识别,深度学习入门级数据集。包含60000个训练数据及10000个测试数据,可分为10类

大小:50MB

文献:Dynamic Routing Between Capsules

2、MS-COCO

链接 http://cocodataset.org/#home

描述:各个论文中常用数据集之一,可用于图像分割,边缘检测,关键点检测及图像捕获

大小:25GB

文献:Mask R-CNN

3、ImageNet

链接 http://www.image-net.org/

描述:最有名的图像数据集之一,目前比较常用的模型如VGG、Inception、Resnet都是基于它训练的。

大小:150GB

文献:Aggregated Residual Transformations for Deep Neural Networks

4、Open Image Dataset

链接 https://github.com/openimages/dataset#download-the-data

描述:一个包含近900万个图像URL的数据集。 这些图像拥有数千个类别及边框进行了注释。 该数据集包含9,011219张图像的训练集,41,260张图像的验证集以及125,436张图像的测试集。

大小:500GB

项目:Resnet 101 image classification model (trained on V2 data): Model checkpointCheckpoint readmeInference code.

5、VisualQA

链接 http://www.visualqa.org/

描述:关于图像的问答系统数据集

大小:25GB

文献:Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge

6、The Street View House Numbers(SVHN)

链接 http://ufldl.stanford.edu/housenumbers/

描述:门牌号数据集,可用来做物体检测与识别

大小:2.5GB

文献:Distributional Smoothing With Virtual Adversarial Training

7、CIFAR-10

链接 http://www.cs.toronto.edu/~kriz/cifar.html

描述:有名的图像识别数据集,包含 50000张训练数据,10000张测试数据,可分为10类

大小:170MB

文献:ShakeDrop regularization

8、Fashion-MNIST

链接 https://github.com/zalandoresearch/fashion-mnist

描述: 包含60000训练样本和10000测试样本的用于服饰识别的数据集,可分为10类。

大小:30MB

文献:Random Erasing Data Augmentation

第二部分 自然语言处理类

1、IMDB 影评数据

链接 http://ai.stanford.edu/~amaas/data/sentiment/

描述:可以实现对情感的分类,除了训练集和测试集示例之外,还有更多未标记的数据。 原始文本和预处理的数据也包括在内。

大小:80MB

文献:Learning Structured Text Representations

2、Twenty Newsgroups数据

链接 https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups

描述:包含20类新闻的文章信息,内类包含1000条数据

大小:20MB

文献: Very Deep Convolutional Networks for Text Classification

3、Sentiment140

链接 http://help.sentiment140.com/for-students/

描述:一个用于情感分析的数据集

大小:80MB

文献:Assessing State-of-the-Art Sentiment Models on State-of-the-Art Sentiment Datasets

4、WordNet

链接 https://wordnet.princeton.edu/

描述:根据单词的意义将单词组成的一个“单词网络”。

大小:10MB 

文献:Wordnets: State of the Art and Perspectives

5、Yelp 点评数据集

链接 https://www.yelp.com/dataset

描述:数据集包括470万条用户评价,15多万条商户信息,20万张图片,12个大都市。此外,还涵盖110万用户的100万条tips,超过120万条商家属性(如营业时间、是否有停车场、是否可预订和环境等信息),随着时间推移在每家商户签到的总用户数。

大小:2.66GB JSON文件 2.9GB SQL文件 7.5GB图片数据

文献:Attentive Convolution

6、维基百科语料库(英语)

链接 http://nlp.cs.nyu.edu/wikipedia-data/

描述: 包含4400000篇文章 及19亿单词,可用来做语言建模

大小:20MB

文献:Breaking The Softmax Bottelneck: A High-Rank RNN language Model

7、博客作者身份语料库

链接 http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

描述:从blogger.com收集到的19,320名博主的博客,其中博主的信息包括博主的ID、性别、年龄、行业及星座。 

大小:300MB

文献:Character-level and Multi-channel Convolutional Neural Networks for Large-scale Authorship Attribution

8、各种语言的机器翻译数据集

链接 http://statmt.org/wmt18/index.html

描述:包含英-汉、英-法、英-捷克、英语- 爱沙尼亚、英 - 芬兰、英-德、英 - 哈萨克、英 - 俄、英 - 土耳其之间互译的数据集

大小:15GB

文献:Attention Is All You Need

第三部分 语音类

1、Free Spoken Digit Dataset

链接 https://github.com/Jakobovski/free-spoken-digit-dataset

描述:数字语音识别数据集,包含3个人的声音,每个数字说50遍,共1500条数据

大小:10MB

文献:Raw Waveform-based Audio Classification Using Sample-level CNN Architectures

2、Free Music Archive (FMA)

链接 https://github.com/mdeff/fma

描述:一个可以用于对音乐进行分析的数据集,数据集中包含歌曲名称、音乐类型、曲目计数等信息。

大小:1000GB

文献:Learning to Recognize Musical Genre from Audio

3、Ballroom

链接 http://mtg.upf.edu/ismir2004/contest/tempoContest/node5.html

描述:舞厅舞曲数据集,可对舞曲风格进行识别。

大小:14GB

文献:A Multi-Model Approach To Beat Tracking Considering Heterogeneous Music Styles

4、Million Song Dataset

链接 https://labrosa.ee.columbia.edu/millionsong/

描述:由Echo Nest提供的一百万首歌曲的特征数据。 该数据集不包含任何音频, 但是可以使用他们提供的代码音频

大小:280GB

文献: Preliminary Study on a Recommender System for the Million Songs Dataset Challenge

5、LibriSpeech

链接 http://www.openslr.org/12/

描述:包含1000小时采样频率为16Hz的英语语音数据及所对应的文本,可用作语音识别

大小:60GB

文献:Letter-Based Speech Recognition with Gated ConvNets

6、VoxCeleb

链接 http://www.robots.ox.ac.uk/~vgg/data/voxceleb/

描述:VoxCeleb是一个大型的说话人识别数据集。 它包含约1,200名来自YouTube视频的约10万个话语。 数据在性别是平衡的(男性占55%)。说话人跨越不同的口音,职业和年龄。 可用来对说话者的身份进行识别。

大小:150MB

文献:VoxCeleb: a large-scale speaker identification dataset

第四部分 Analytics Vidhya实践问题

这部分是Analytics Vidhya(原博客所在网站)在解决实际问题中所收集的数据,有兴趣的可以参见他们的竞赛。

1、Twitter情绪分析

链接 https://datahack.analyticsvidhya.com/contest/practice-problem-age-detection/register

描述:识别是否包含种族歧视及性别歧视的推文。

大小:3MB

2、印度演员的年龄识别数据集

链接 https://datahack.analyticsvidhya.com/contest/practice-problem-age-detection/

描述:根据人的面部属性,识别人的年龄的数据集。

大小:48MB

3、城市声音分类数据集

链接 https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/

描述:该数据集包含来自10个类的城市声音的8732个标记的声音片段,每个片段时间小于4秒。

大小:训练数据集3GB,训练数据集2GB。

posted on 2018-06-06 15:03  yfb  阅读(3944)  评论(0编辑  收藏  举报