人工智能训练常用数据集对比:
数据集名称 | 类别数量 | 图片数量 | 标注类型 | 适用任务 | 官网链接 |
---|---|---|---|---|---|
ImageNet | 20,000+ | 1,400 万+ | 图像分类 | 图像分类、迁移学习 | 官网 |
CIFAR-10 | 10 | 60,000 | 图像分类 | 小型图像分类 | 官网 |
CIFAR-100 | 100 | 60,000 | 图像分类 | 小型图像分类 | 官网 |
MNIST | 10 | 70,000 | 图像分类 | 手写数字识别 | 官网 |
Fashion-MNIST | 10 | 70,000 | 图像分类 | 时尚商品分类 | 官网 |
Tiny ImageNet | 200 | 100,000 | 图像分类 | 小型多类分类 | 官网 |
COCO | 80 | 330,000 | 边界框、分割掩膜、关键点、图像描述 | 目标检测、分割、关键点检测、图像描述 | 官网 |
PASCAL VOC | 20 | 11,000 | 边界框、分割标注 | 目标检测、语义分割 | 官网 |
Open Images | 600+ | 9,000,000+ | 边界框、分割掩膜、属性标注、关系标注 | 图像分类、目标检测、分割、多标签分类 | 官网 |
Places365 | 365 | 1,800,000+ | 场景类别标注 | 场景分类 | 官网 |
Caltech-256 | 256 | 30,607 | 图像分类 | 对象识别、分类 | 官网 |
Oxford-IIIT Pets | 37 | 7,349 | 图像分类、分割 | 宠物分类与分割 | 官网 |
Food-101 | 101 | 101,000 | 图像分类 | 食品分类、食品识别 | 官网 |
Flowers-102 | 102 | 8,189 | 图像分类 | 花卉分类 | 官网 |
DTD | 47 | 5,640 | 纹理分类 | 材料分类、纹理分析 | 官网 |
SUN | 397 | 130,519 | 场景类别标注 | 场景分类 | 官网 |
iNaturalist | 8,590 | 437,513 | 图像分类 | 生物物种分类 | 官网 |
DeepFashion | 50+ 属性类别 | 800,000 | 分类、属性预测、关键点检测 | 时尚推荐、服饰搜索 | 官网 |
Animals with Attributes 2 (AwA2) | 50 | 37,322 | 图像分类、属性标注 | 动物分类、零样本学习 | 官网 |
LibriSpeech | - | 1,000 小时语音数据 | 文本与语音对齐 | 语音识别 | 官网 |
1. ImageNet#
- 简介:ImageNet 是最经典的大规模图像数据集之一,包含超过 1400 万张标注图片,覆盖 2 万多个类别。
- 应用:广泛用于深度学习模型的图像分类和迁移学习研究。
- 挑战:ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 提供复杂的多类分类和目标检测任务。
- 链接:ImageNet官网
2. CIFAR-10 和 CIFAR-100#
- 简介:分别包含 10 类和 100 类物体类别,每类有 6000 张 32×32 分辨率的彩色图片。
- 特点:由于图片较小,适合初学者快速训练模型;CIFAR-100 的类别更细化。
- 应用:用于研究模型的快速训练和优化。
- 链接:CIFAR官网
3. MNIST#
- 简介:由 70,000 张手写数字 (0-9) 的灰度图像组成,分辨率为 28×28。
- 特点:简单、轻量级,是图像分类和机器学习的入门数据集。
- 扩展:Fashion-MNIST 是其替代版本,包含 10 类时尚商品图片。
- 链接:MNIST官网
4. Tiny ImageNet#
- 简介:ImageNet 的简化版,包含 200 个类别,每个类别有 500 张训练图片。
- 特点:图片尺寸为 64×64,比 CIFAR 更复杂,但比完整的 ImageNet 轻量。
- 应用:适合中型任务的快速模型评估。
- 链接:Tiny ImageNet官网
5. Places365#
- 简介:专注于场景识别的数据集,包含 365 个场景类别和超过 180 万张图片。
- 特点:适用于场景分类和图像理解任务。
- 应用:如智能家居系统、自动驾驶中的场景分析。
- 链接:Places365官网
6. Caltech-256#
- 简介:包含 30,607 张图片,分为 256 个类别。
- 特点:数据类别分布均匀,每个类别的图片数量适中(最少 80 张,最多 827 张)。
- 应用:小型图像分类和对象识别任务。
- 链接:Caltech官网
7. Oxford-IIIT Pet Dataset#
- 简介:包含 37 个宠物类别,每类有大约 200 张图片,标注了每张图片的类别和分割边界。
- 特点:专注于宠物图像的分类和分割任务。
- 应用:动物识别、分割和生成任务。
- 链接:Oxford Pet Dataset官网
8. Food-101#
- 简介:包含 101 种食品类别,每类 1000 张图片。
- 特点:类别均衡,适合美食分类和食品识别应用。
- 应用:餐饮推荐、自动菜单生成等。
- 链接:Food-101官网
9. Flowers-102#
- 简介:包含 102 种花卉类别,每类 40 到 258 张图片。
- 特点:提供高质量图片,分类任务适合用于研究特定领域的视觉识别。
- 应用:植物分类、花卉识别。
- 链接:Flowers-102官网
10. Open Images Dataset#
- 简介:谷歌提供的大型数据集,包含 900 万张图片,标注了 600 个类别。
- 特点:图片中包含多种对象,并提供了位置信息和分割掩膜。
- 应用:图像分类、目标检测、多标签任务。
- 链接:Open Images官网
11. DTD (Describable Textures Dataset)#
- 简介:包含 47 种可描述纹理类别,如条纹、波纹、网状等,每类约 120 张图片。
- 特点:关注纹理的识别,适合纹理建模任务。
- 应用:材料分类、纹理分析。
- 链接:DTD官网
12. SUN (Scene Understanding Database)#
- 简介:包含 397 类场景类别,共约 13 万张标注图片。
- 特点:场景类别丰富,适用于细粒度场景分类任务。
- 应用:视觉理解、智能监控系统。
- 链接:SUN官网
13. iNaturalist#
- 简介:自然界生物分类的数据集,覆盖 8590 个类别,主要包含植物和动物的图像。
- 特点:类别数量大且数据分布不平衡。
- 应用:生物物种分类、生态学研究。
- 链接:iNaturalist官网
14. DeepFashion#
- 简介:包含 80 万张服饰图片,涵盖服装分类、属性预测、关键点检测等任务。
- 特点:丰富的服装样式和标注。
- 应用:时尚推荐、服装搜索。
- 链接:DeepFashion官网
15. Animals with Attributes (AwA2)#
- 简介:包含 37,322 张动物图片,分为 50 个类别,并提供属性标注。
- 特点:结合图像分类和属性预测任务。
- 应用:跨领域学习、零样本学习。
- 链接:AwA2官网
16. COCO (Common Objects in Context)#
- 简介:COCO 是一个广泛用于计算机视觉任务的大型数据集,包含超过 33 万张图片,涵盖 80 个常见物体类别。
- 特点:
- 多任务支持:不仅包含图像分类,还支持目标检测、分割、关键点检测、图像描述生成等任务。
- 标注丰富:每张图片包含多个对象的边界框标注、分割掩膜、物体类别、每个物体的关键点信息。
- 背景复杂:图片中物体通常在自然背景中,增强了数据的多样性和复杂性。
- 应用:常用于目标检测、实例分割、图像描述等任务。
- 链接:COCO官网
17. PASCAL VOC (Visual Object Classes)#
- 简介:PASCAL VOC 是一个经典的目标检测数据集,最初用于图像分类任务,后扩展到目标检测、分割等任务,包含 20 类物体。
- 特点:
- 较小规模:包括 11,000 张图像,涵盖 20 个物体类别(如人、动物、交通工具等)。
- 高质量标注:每个物体都有详细的边界框标注,部分数据集还提供分割标注。
- 广泛使用:是目标检测和分割任务的经典基准数据集。
- 应用:目标检测、图像分类、语义分割。
- 链接:PASCAL VOC官网
18. Open Images#
- 简介:Open Images 是由 Google 提供的大规模数据集,包含约 900 万张图像,支持多种计算机视觉任务,包括图像分类、目标检测和图像分割等。
- 特点:
- 海量数据:不仅包含大量图像,还支持 600 多个类别的物体标注,适合多类别的图像识别任务。
- 详细标注:提供了边界框、分割掩膜、物体属性(如颜色、材质)以及关系标注。
- 多样性:图像内容丰富,涵盖多个场景和各种物体,且标注信息完整。
- 应用:图像分类、目标检测、实例分割、多标签分类等任务。
- 链接:Open Images官网
如何选择适合的数据集?#
- 根据任务目标:
- 目标是场景识别?选择 Places365。
- 目标是细粒度分类?选择 Oxford-IIIT Pet 或 iNaturalist。
- 根据数据规模:
- 小规模实验:使用 CIFAR、Flowers-102。
- 大规模实验:使用 ImageNet、Open Images。
- 考虑领域需求:
- 如果是医疗领域,选择 ChestX-ray14。
- 如果是时尚领域,选择 DeepFashion。
分类:
人工智能
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!