公开数据集
Dataset
图像分类
- Imagenet官网:https://image-net.org/download.php https://www.kaggle.com/c/imagenet-object-localization-challenge/data
下载:https://cloud.google.com/tpu/docs/imagenet-setup?hl=zh-cn
介绍:https://lonepatient.top/2018/07/01/Deep_Learning_For_Computer_Vision_With_Python_PB_13.html
Imagenet
完整版本:
21,841类别(synsets)
14,197,122张图片
WordNet:英语字典,ImageNet数据集是根据WordNet IDs映射的;
synset(同义词集合):WordNet根据词条的意义将它们分组,每一个具有相同意义的字条组称为一个synset;
子数据集:ILSVRC(ImageNet的一个子集),大约120万个训练图像,5万个验证图像,以及10万个测试图像;
1000类别标记(train中每类732—1300张图片,val中每类50张图像,test中每类100张图像)
ILSVRC数据集结构介绍:
- Annotations:物体位置标注数据文件,一般是在物体检测任务中使用到,目前我们可以忽略这个数据集
- Data:数据文件夹,这个是我们需要重点关注的,里面包含了train、val和test原始图像数据
- ImageSets:图像对应的属性信息,主要存放的是标签的映射关系数据(train_cls.txt、val.txt)
train目录:如WordNet ID为n01440764的子目录包含了1300张 “tench(欧洲淡水鱼)”图像
Val目录:所有图像都放在一个文件夹中(在val.txt文件中,提供了val数据集文件名到类标签的映射关系)
test目录:保密的,没有标签信息
“黑名单”图像——由ImageNet数据集管理员标记为“黑名单”的图像,由于该图像的类标签过于模糊,因此在评估过程中我们不考虑这些图像;
devkit(ILSVRC2016_devkit.tar.gz):包含实际的索引文件、validation数据中黑名单图像id和图像文件名映射到相应的实际类标签等数据;
data目录:
- map_clsloc.txt:包含WordNet ID映射到图像真实的类标签数据
- ILSVRC2015_clsloc_validation_ground_truth.txt
- ILSVRC2015_clsloc_validation_blacklist.txt
2. 人像:https://www.kaggle.com/laurentmih/aisegmentcom-matting-human-datasets
3. Caltech 101:101个类别,每类约40-800张图片(102类,包括一个杂乱类),大部分类别有50张图片(300*200),共计9145张图片;
4. Caltech 256:Caltech 101数据集改进,257个类别(包含一个杂乱类),每类约80-827张图片,共计30607张;
5. Cifar10:10类(飞机,汽车,鸟,猫,鹿,狗,青蛙,马,船,卡车),每类6000张图片(32*32),共计6W张;
6. Cifar100:100个类别(分入20个一级类),每个子类600张图片(32*32),共计6W张;https://www.kaggle.com/aymenboulila2/cifar100
超类 |
子类 |
水生哺乳动物 |
海狸,海豚,水獭,海豹,鲸鱼 |
鱼 |
水族馆鱼,比目鱼,雷,鲨鱼,鳟鱼 |
花卉 |
兰花,罂粟,玫瑰,向日葵,郁金香 |
食品容器 |
瓶子,碗,罐,杯子,盘子 |
水果和蔬菜 |
苹果,蘑菇,橘子,梨,甜椒 |
家用电器 |
时钟,电脑键盘,灯,电话,电视 |
家用家具 |
床,椅子,沙发,桌子,衣柜 |
昆虫 |
蜜蜂,甲虫,蝴蝶,毛毛虫,蟑螂 |
大食肉动物 |
熊,豹,狮子,老虎,狼 |
大型人造户外用品 |
桥梁,城堡,房屋,道路,摩天大楼 |
大型自然户外场景 |
云,森林,山,平原,海洋 |
大型杂食动物和食草动物 |
骆驼,牛,黑猩猩,大象,袋鼠 |
中型哺乳动物 |
狐狸,豪猪,负鼠,浣熊,臭鼬 |
非昆虫无脊椎动物 |
螃蟹,龙虾,蜗牛,蜘蛛,蠕虫 |
人们 |
婴儿,男孩,女孩,男人,女人 |
爬虫类 |
鳄鱼,恐龙,蜥蜴,蛇,乌龟 |
小哺乳动物 |
仓鼠,鼠标,兔子,rabbit,松鼠 |
树木 |
枫木,橡木,棕榈,松木,柳树 |
车辆1 |
自行车,公共汽车,摩托车,皮卡车,火车 |
车辆2 |
割草机,火箭,电车,坦克,拖拉机 |
目标检测
1. Coco官网:https://cocodataset.org/#home
介绍:https://arleyzhang.github.io/articles/e5b86f16/
2. PASCAL VOC官网:http://host.robots.ox.ac.uk/pascal/VOC/
介绍:图片集包括20个目录:人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视 https://arleyzhang.github.io/articles/1dc20586/