计算机视觉的数据集开源下载
https://github.com/wangqingbaidu/Dr.Sure
README.md
Attention!
我的Dr.Sure项目正式上线了,主旨在分享学习Tensorflow以及DeepLearning中的一些想法。期间随时更新我的论文心得以及想法。
Github地址:https://github.com/wangqingbaidu/Dr.Sure
CSDN地址:http://blog.csdn.net/wangqingbaidu
个人博客地址:http://www.wangqingbaidu.cn/
此目录包括2个文件夹,一个是Algorithm,一个是LearningTensorflow。
- Algorithm文件夹整理目前最新的论文分享详解以及在CangJe项目中的代码支持等。
- LearningTensorflow文件夹存放的是使用Tensorflow过程中的一些经验以及一些抽象出来的utils使用总结。
Algorithm
-
Attention-based Extraction of Structured Information from Street View Imagery.md, Tensorflow中OCR识别的的论文介绍。
-
DSSMs: Deep Structed Semantic Models 深度语义模型,不同信息源映射到一个相同的语义空间。
-
KL散度, KL散度的一些基本知识以及应用场景,相关性质的证明。
-
信息检索评价指标,信息检索中的多种评价指标,衡量一个检索系统的好坏。
-
分类、检测问题总结,总结了从12年到17年图像分类任务以及目标检测任务的发展脉络。
-
ThinkinginWeaklySupervisedLearning,弱监督学习的一些总结。
-
A Recipe for Training Neural Networks.md, 大神Karpathy的经验之谈,转载自Karpathy的博客。
LearningTensorflow
-
TFrecord&QueueRunner.md,简单介绍如何针对原始数据生成TFrecord以及从TFrecord中解析出一个样本。QueueRuuner部分介绍如何将TFrecord的文件应用到计算图中。
-
Losses.md,Loss function相关的介绍。
-
Optimizer.pdf,Tensorflow中相关优化函数介绍。
-
Identity-TF.md,最近看到有些TensorFlow的代码中使用到了tf.control_dependencies、tf.identity操作,这里做个简单的总结。
-
tf.contrib.layers.optimize_loss.md,优化器选择,集成了三个优化参数的主要步骤。
-
object_detection源码解析,一点点解构models中的目标检测代码。
code
- distance.py基于Tensorflow,用于计算两个tensor的距离的代码,目前已经添加cosine距离。
下面是几乎目前CV相关的开源数据集的整理。
Images Analysis
数据集 | 介绍 | 备注 | 网址 |
---|---|---|---|
Flickr30k | 图片描述 | 31,783 images,每张图片5个语句标注 | 链接 |
Microsoft COCO | 图片描述 | 330,000 images,每张图片至少5个语句标注 | 链接 |
ESP Game | 多标签定义图像 | 20,770 images,268 tags,诸如bed, light man,music | 链接 |
IAPRTC-12 | 多标签定义图像 | 19,452 images,291 tags | 链接 |
NUS-WIDE | 多标签定义图像 | 269,648 images,several tags (2-5 on average) per image | 链接 |
CUHK-PEDES | 以文搜图 | 34,054 images,每张图片2条描述 | 链接 |
VRD | 视觉关系检测 | 5,000 images, 100目录,37,993对关系 | 链接 |
sVG | 视觉关系检测 | 108,000 images, 998,000对关系 | 链接 |
Visual Genome Dataset | 图像属性检测 | 108,077 images, 5.4 M 区域块,2.8 M 属性,2.3 M 关系 | 链接 |
VQA | 问答系统 | 1,105,904问题,11,059,040 回答 | 链接 |
Visual7W | 问答系统 | 327,939 问答对 | 链接 |
TID2013 | 图像质量评价 | 25张参考图像,24个失真类型 | 链接 |
CSIQ | 图像质量评价 | 30张参考图像,6个失真类型 | 链接 |
LIVE | 图像质量评价 | 29张参考图像,5个失真类型 | 链接 |
WATERLOO | 图像质量评价 | 4744张参考图像,20个失真类型 | 链接 |
photo.net | 图像美观评价 | 20,278张图像,打分[0,10] | 链接 |
DPChallenge.com | 图像美观评价 | 16,509张图像,打分[0,10] | 链接 |
CUHK | 图像美观评价 | 28,410张图像,只分高质量和低质量 | 链接 |
AVA | 图像美观评价 | 255,500张图像,打分[0,10] | 链接 |
Image Motion & Tracking
数据集 | 介绍 | 备注 | 网址 |
---|---|---|---|
CUHK03 | Person re-identification(人重识别) | image num:13164 person num:1360 camera num:10( 5 pairs) | 链接 |
CUHK02 | Person re-identification(人重识别) | image num:7264 person num:1816 camera num:10( 5 pairs) | 链接 |
CUHK01 | Person re-identification(人重识别) | image num:3884 person num:971 camera num: 2 | 链接 |
VIPeR | Person re-identification(人重识别) | image num:1264 person num:632 camera num:2 | 链接 |
ETH1,2,3 | Person re-identification(人重识别) | image num:8580 person num:83,35,28 camera num:1 | 链接 |
PRID2011 | Person re-identification(人重识别) | image num:24541 person num:934 camera num:2 | 链接 |
MARS | Person re-identification(人重识别) | image num:11910031 person num:1261 camera num:6 | 链接 |
Market1501 | Person re-identification(人重识别) | image num:32217 person num:1501 camera num:6 | 链接 |
Epic Fail (EF) dataset | Risk Assessment(风险评估) | video num:3000 | 链接 |
Street Accident (SA) dataset | Risk Assessment(风险评估) | video num:1733 | 链接 |
OTB-50 | visual tracking(跟踪) | video num:50 | 链接 |
OTB-100 | visual tracking(跟踪) | video num:100 | 链接 |
VOT2015 | visual tracking(跟踪) | video num:60 | 链接 |
ALOV300 | visual tracking(跟踪) | video num:314 | 链接 |
MOT | visual tracking(跟踪) | video num🚋11 test:11 | 链接 |
THUMOS | Temporal action localization(动作定位) | video num:~3K activities class:20 instances:~3K | 链接 |
ActivityNet | Temporal action localization(动作定位) | video num:20k activities class:200 instances:7.6K | 链接 |
Mexaction2 | Temporal action localization(动作定位) | activities class:2 instances:1975 | 链接 |
FlyingChairs dataset | optical flow(光流) | image pairs:22k | 链接 |
FlyingThings3D | optical flow(光流) | image pairs:22k | 链接 |
KITTI benchmark suite | optical flow(光流) | image pairs:1600 | 链接 |
MPI Sintel | optical flow(光流) | image pairs:1064 | 链接 |
Video Analysis & Scene Understanding
数据集 | 介绍 | 备注 | 网址 |
---|---|---|---|
UCF101 | 动作行为识别 | 13320 video,101类动作,主要是五大类:1)人-物交互;2)肢体运动;3)人-人交互;4)弹奏乐器;5)运动 | 链接 |
HMDB51 | 动作行为识别 | 7000 videos,51类,包括人脸表情动作,身体动作,人与人交互等 | 链接 |
Moments-in-Time | 动作行为识别 | 1,000,000 videos,339类 | 链接 |
ActivityNet 1.3 | 动作行为识别 | 20,000 videos,200类 | 链接 |
Kinetics | 动作行为识别 | 300,000 videos,400类 | 链接 |
AVA | 动作行为识别 | 57,600 videos,80类 | 链接 |
Collective Activity Dataset | 群体活动行为识别 | 44 videos,穿叉、行走、等待、交谈和排队 五类 | 链接 |
Choi’s New Dataset | 群体活动行为识别 | 32 videos,聚会,谈话,分开,一起走,追逐和排队 六类 | None |
ActivityNet 1.3 | 检测动作事件的起始时间和终止时间 | 20,000 videos,200类动作的起始时间和终止时间 | 链接 |
THUMOS | 检测动作事件的起始时间和终止时间 | 15,000 videos,101类动作的起始时间和终止时间 | 链接 |
MED | 事件检测 | 32,744 videos,20个事件 | 链接 |
EventNet | 事件检测 | 90,000 videos,500个事件 | 链接 |
Columbia Consumer Video | 事件检测 | 9,317 videos,20个事件 | 链接 |
ADE20K | 事件检测 | 20,210 videos,900个事件 | 链接 |
DAVIS | 视频主物体分割 | 50 videos,分割标注 | 链接 |
FBMS | 视频主物体分割 | 59 videos,分割标注 | 链接 |
IJB-C | 视频人脸识别 | 11,000 videos, | 链接 |
YouTube Faces | 视频人脸识别 | 3,425 videos,1595 人 | 链接 |
MS-Celeb-1M | 视频人脸识别 | 1,000,000 images,21,000人 | 链接 |
MSVD | 视频描述 | 1,970 videos | 链接 |
MSR-VTT-10K | 视频描述 | 10,000 videos | 链接 |
MSR-VTT-10K | 视频描述 | 无 | 链接 |
3D Computer Vision
数据集 | 介绍 | 备注 | 网址 |
---|---|---|---|
photoface database | 基于光度立体视觉的二维和三维人脸识别数据库 | 总共7356张图像,包含1839个session和261个subjects | None |
NYU Depth V2 dataset | 关于RGBD 图像场景理解的数据库 | 提供1449张深度图片和他们的密集2d点类标注 | 链接 |
SUN RGBD dataset | 是上面的NYU Depth V2 dataset的超集,多了3D bounding boxes和room layouts的标注。 | 有10,000张RGB-D图片,有58,657个3D包围框和146,617 个2d包围框。 | 链接 |
PASCAL3D+ | 新的三维物体检测和姿态估计数据集,从PASCAL VOC 演化而来,包含图像,注解,和3D CAD模型 | 总共12个类,平均每个类别有3000多个实例 | 链接 |
IKEA | 包含典型室内场景的三维模型的数据库,例如桌子椅子等 | 包含大约759张图片和219个3D模型 | 链接 |
New Tsukuba Dataset | 包含了很多立体物体对的数据库,用于立体物体匹配 | 总共1800个立体物体对,以及每立体对的立体视差图、遮挡图和不连续图 | 链接 |
Oxford RobotCar Dataset | 关于户外自动驾驶的数据集。 | 包含在驾驶汽车过程从6个摄像头收集的2000w张图片,和当时的激光雷达,GPS和地面实况标注。 | 链接 |
Middlebury V3 | 包含高分辨率物体立体视差标注的数据库 | 包含33个类,没有明说每类有多少数据 | 链接 |
ShapeNet | 包含3D模型,和3d模型的类别标注的数据集,覆盖了常用的3D数据集PASCAL 3D+。 | 它涵盖55个常见的对象类别,有大约51,300个3D模型 | 链接 |
MICC dataset | 包含了3D人脸扫描和在不同分辨率,条件和缩放级别下的几个视频序列的数据库。 | 有53个人的立体人脸数据 | 链接 |
CMU MoCap Dataset | 包含了3D人体关键点标注和骨架移动标注的数据集。 | 有6个类别和23个子类别,总共2605个数据。 | 链接 |
DTU dataset | 关于3D场景的数据集。 | 有124个场景,每场景有49/64个位置的RGB图像和结构光标注。 | 链接 |
Analyzing Humans in Images
数据集 | 介绍 | 备注 | 网址 |
---|---|---|---|
MSR-Action3D | 包含深度的动作识别数据集, | 有20个动作,总共557个序列。 | 链接 |
Florence-3D | 包含深度的动作识别数据集, | 有9个动作,总共215个动作序列。 | 链接 |
Berkeley MHAD | 包含深度的动作识别数据集, | 有11个动作,产生660个动作序列。 | 链接 |
Online Action Detection | 包含深度的动作识别数据集, | 数据集包含59个长序列,包含10种不同的日常生活行为。 | 链接 |
ChaLearn LAP IsoGD Dataset | RGB-D图像的手势识别的数据集。 | 包括47933个RGB-D手势视频,有249个手势标签。Training有35878视频,Validation有5784个,test有6271个 | 链接 |
MAFA dataset | 关于面部遮挡问题的数据集 | 有30, 811张人脸和35806张有遮挡的脸组成。 | 链接 |
MSRC-12 Kinect Gesture Dataset | 手势识别数据集 | 有4900张图片,包含12个不同手势, | 链接 |
2013 Chalearn Gesture Challenge dataset | 手势识别数据集 | 有11000张图片,包含20个不同手势, | 链接 |
WIDER FACE | 人脸检测数据集 | 有 32,203 张图片,标注了393703个人脸。 | 链接 |
FDDB | 人脸检测数据集 | 2845张图片,标注了5171张人脸。 | 链接 |
300-VW dataset | 面部表情数据集 | 包含114个视频和总计218,595帧。 | 链接 |
HMDB51 | 人类行为识别的数据集 | 包含51个动作,总共有6766个视频剪辑 | 链接 |
MPII Cooking Activities Dataset | 人类行为识别的数据集 | 包含65个动作,有5609个视频 | 链接 |
UCF101 | 人类行为识别的数据集 | 包含101个动作,有13320个视频 | 链接 |
IJB-A dataset | 包含视频和图片人脸识别的数据集 | 包含5712个图像和2085个视频 | 链接 |
YouTube celebrities | 视频人脸识别的数据集 | 包含47位名人的1910个视频 | 链接 |
COX | 视频人脸识别的数据集 | 包含1000个主题的4000个视频 | 链接 |
Human3.6M | 人体姿态估计的数据集 | 360万张3D照片,11名受试者在4个视点下执行15个了不同的动作 | 链接 |
iLIDS | 行人重识别的数据集 | 476 张图像,包含119个人 | 链接 |
VIPeR | 行人重识别的数据集 | 632个行人图片对(由两个相机拍摄) | 链接 |
CUHK01 | 行人重识别的数据集 | 包含971行人, 3884张图片 | 链接 |
CUHK03 | 行人重识别的数据集 | 包含1360行人, 13164张图片 | 链接 |
RWTH-PHOENIX-Weather multi-signer 2014 | 手语识别的数据集 | 包含了5672个德语手语的句子,有65,227个手语姿势和799,006帧 | 链接 |
AFLW | 人类面部关键点的数据集 | 总共约有25k张脸,每幅图像标注了大约21个位置。 | 链接 |
CMU mocap database | 动作识别的数据集 | 2235个数据,包含144个不同的动作。 | 链接 |
Georgia Tech (GT) database | 人脸识别数据库 | 50个人每人15张人脸。 | 链接 |
ORL | 人脸识别数据库 | 40个人每个人10张图。 | 链接 |
Application
数据集 | 介绍 | 备注 | 网址 |
---|---|---|---|
DogCentric Activity Dataset | 第一视角的狗和人之间的相互行为的数据集(视频) | 总共有10类,具体数据量没有明说,y是动作类别 | 链接 |
JPL First-Person Interaction Dataset | 第一视角观察动作的数据集 | 57个视频,8个大类,y是动作类别 | 链接 |
NUS-WIDE | 关于图像文本匹配的数据集 | 269,648个图像和对应的标签 | 链接 |
LabelMe Dataset | 关于图像文本匹配的数据集 | 3825个图像和对应标签 | 链接 |
Pascal Dataset | 关于图像文本匹配的数据集 | 5011张训练图像和4952张测试图像 | ) |
ICDAR 2015 | 关于文本检测的数据集 | 1500张训练,1000张测试,y为四边形的四个顶点。 | 链接 |
COCO-Text | 关于文本检测的数据集 | 63686张图片,其中43686张被选为训练集,剩下的2万用于测试。 | 链接 |
MSRA-TD500 | 关于文本检测的数据集 | 300个训练,200个测试图像 | 链接 |
Microsoft 7-Scenes Dataset | 室内人体运动的数据集 | 有7种不同室内环境,每包含500-1000张图像视频序列。 | 链接 |
Oxford RobotCar | 户外自动驾驶数据集 | 包含图像,激光扫描结果和GPS数据。 | 链接 |
Low- & Mid-Level Vision
数据集 | 介绍 | 备注 | 网址 |
---|---|---|---|
Deep Video Deblurring for Hand-held Cameras | video/image deblurring(图像去模糊) | video num:71 video time: 3-5s blurry and sharp pair image num:6708 | 链接 |
GOPRO dataset | video/image deblurring(图像去模糊) | blurry and sharp pair image num:3214 train num:2103 test num:1111 | 链接 |
BSD68 | image restoration(图像修复)/高斯降噪 | image num:68 | 链接 |
BSD100 | "image restoration(图像修复)super resolution超分辨率重建" | image num:100 | 链接 |
Set5 | "image restoration(图像修复)super resolution超分辨率重建" | image num:5 | 链接 |
Set14 | "image restoration(图像修复)super resolution超分辨率重建" | image num:14 | 链接 |
Urban100 | "image restoration(图像修复)super resolution超分辨率重建" | image num:100 | 链接 |
NYU v2 dataset | "image restoration(图像修复)depth super resolution深度超分辨率重建" | image num:1449 | 链接 |
Middlebury dataset | "image restoration(图像修复)depth super resolution深度超分辨率重建" | image pair num: 33 | 链接 |
alpha matting benchmark | Natural image matting(抠图) | "train num:27,test num:8" | 链接 |
real image benchmark | Natural image matting(抠图) | "train num:49300,test num:1000" | 链接 |
MSRA10K/MSRA-B | Image saliency detection(显著性区域检测) | image num(MSRA10K):10000 image num(MSRA-B):5000 | 链接 |
ECSSD | Image saliency detection(显著性区域检测) | image num:1000 | 链接 |
DUT-OMRON | Image saliency detection(显著性区域检测) | image num:5168 | 链接 |
PASCAL-S | Image saliency detection(显著性区域检测) | image num:850 | 链接 |
HKU-IS | Image saliency detection(显著性区域检测) | image num:4447 | 链接 |
SOD | Image saliency detection(显著性区域检测) | image num:300 | 链接 |
Describable Textures Dataset | texture synthesis(纹理合成) | image num:5640 category num:47 split train:val:test = 1:1:1 | 链接 |
CVPPP leaf segmentation | Instance segmentation(样例分割) | image num: 161 train num: 128 test num: 33 | 链接 |
KITTI car segmentation | Instance segmentation(样例分割) | image num: 3976 train num: 3712 test num: 144 val:120 | 链接 |
Cityscapes | Instance segmentation(样例分割) | image num: 5000 train num: 2975 test num: 1525 val:500 | 链接 |
SYMMAX | Symmetry Detection(对称性检测) | image num: train:200 test:100 | 链接 |
WHSYMMAX | Symmetry Detection(对称性检测) | image num: train:228 test:100 object num: 1 | 链接 |
SK506 | Symmetry Detection(对称性检测) | image num: train:300 test:206 object num: 16 | 链接 |
Sym-PASCAL | Symmetry Detection(对称性检测) | image num: train:648 test:787 object num: 14 | 链接 |
Color Checker Dataset | Color constancy(颜色恒定) | image num: 568 | 链接 |
NUS 8-Camera Dataset | Color constancy(颜色恒定) | image num: 1736 | 链接 |
Text
数据集 | 介绍 | 备注 | 网址 |
---|---|---|---|
Stanford Sentiment Treebank | 文本情感分析 | 11855个句子划分为239231个短语,每个短语有个概率值,越小越负面,越大越正面 | 链接 |
IMDB | 文本情感分析 | 100,000句子,正面负面两类 | 链接 |
Yelp | 文本情感分析 | 无 | 链接 |
Multi-Domain Sentiment Dataset(Amazon product) | 文本情感分析 | 100,000+句子,正面负面2类或强正面、弱正面、中立、弱负面、强负面5类 | 链接 |
SemEval | 文本情感分析 | 20,632句子,三类(正面、负面、中立) | 链接 |
Sentiment140(STS) | 文本情感分析 | 1,600,000句子,三类(正面、负面、中立) | 链接 |
每一个不曾起舞的日子,都是对生命的辜负。
But it is the same with man as with the tree. The more he seeks to rise into the height and light, the more vigorously do his roots struggle earthward, downward, into the dark, the deep - into evil.
其实人跟树是一样的,越是向往高处的阳光,它的根就越要伸向黑暗的地底。----尼采