科创武器

人工智能训练常用数据集对比:

Toretto·2024-12-15 20:53·112 次阅读

人工智能训练常用数据集对比:

数据集名称 类别数量 图片数量 标注类型 适用任务 官网链接
ImageNet 20,000+ 1,400 万+ 图像分类 图像分类、迁移学习 官网
CIFAR-10 10 60,000 图像分类 小型图像分类 官网
CIFAR-100 100 60,000 图像分类 小型图像分类 官网
MNIST 10 70,000 图像分类 手写数字识别 官网
Fashion-MNIST 10 70,000 图像分类 时尚商品分类 官网
Tiny ImageNet 200 100,000 图像分类 小型多类分类 官网
COCO 80 330,000 边界框、分割掩膜、关键点、图像描述 目标检测、分割、关键点检测、图像描述 官网
PASCAL VOC 20 11,000 边界框、分割标注 目标检测、语义分割 官网
Open Images 600+ 9,000,000+ 边界框、分割掩膜、属性标注、关系标注 图像分类、目标检测、分割、多标签分类 官网
Places365 365 1,800,000+ 场景类别标注 场景分类 官网
Caltech-256 256 30,607 图像分类 对象识别、分类 官网
Oxford-IIIT Pets 37 7,349 图像分类、分割 宠物分类与分割 官网
Food-101 101 101,000 图像分类 食品分类、食品识别 官网
Flowers-102 102 8,189 图像分类 花卉分类 官网
DTD 47 5,640 纹理分类 材料分类、纹理分析 官网
SUN 397 130,519 场景类别标注 场景分类 官网
iNaturalist 8,590 437,513 图像分类 生物物种分类 官网
DeepFashion 50+ 属性类别 800,000 分类、属性预测、关键点检测 时尚推荐、服饰搜索 官网
Animals with Attributes 2 (AwA2) 50 37,322 图像分类、属性标注 动物分类、零样本学习 官网
LibriSpeech - 1,000 小时语音数据 文本与语音对齐 语音识别 官网

1. ImageNet#

  • 简介:ImageNet 是最经典的大规模图像数据集之一,包含超过 1400 万张标注图片,覆盖 2 万多个类别。
  • 应用:广泛用于深度学习模型的图像分类和迁移学习研究。
  • 挑战:ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 提供复杂的多类分类和目标检测任务。
  • 链接ImageNet官网

2. CIFAR-10 和 CIFAR-100#

  • 简介:分别包含 10 类和 100 类物体类别,每类有 6000 张 32×32 分辨率的彩色图片。
  • 特点:由于图片较小,适合初学者快速训练模型;CIFAR-100 的类别更细化。
  • 应用:用于研究模型的快速训练和优化。
  • 链接CIFAR官网

3. MNIST#

  • 简介:由 70,000 张手写数字 (0-9) 的灰度图像组成,分辨率为 28×28。
  • 特点:简单、轻量级,是图像分类和机器学习的入门数据集。
  • 扩展:Fashion-MNIST 是其替代版本,包含 10 类时尚商品图片。
  • 链接MNIST官网

4. Tiny ImageNet#

  • 简介:ImageNet 的简化版,包含 200 个类别,每个类别有 500 张训练图片。
  • 特点:图片尺寸为 64×64,比 CIFAR 更复杂,但比完整的 ImageNet 轻量。
  • 应用:适合中型任务的快速模型评估。
  • 链接Tiny ImageNet官网

5. Places365#

  • 简介:专注于场景识别的数据集,包含 365 个场景类别和超过 180 万张图片。
  • 特点:适用于场景分类和图像理解任务。
  • 应用:如智能家居系统、自动驾驶中的场景分析。
  • 链接Places365官网

6. Caltech-256#

  • 简介:包含 30,607 张图片,分为 256 个类别。
  • 特点:数据类别分布均匀,每个类别的图片数量适中(最少 80 张,最多 827 张)。
  • 应用:小型图像分类和对象识别任务。
  • 链接Caltech官网

7. Oxford-IIIT Pet Dataset#

  • 简介:包含 37 个宠物类别,每类有大约 200 张图片,标注了每张图片的类别和分割边界。
  • 特点:专注于宠物图像的分类和分割任务。
  • 应用:动物识别、分割和生成任务。
  • 链接Oxford Pet Dataset官网

8. Food-101#

  • 简介:包含 101 种食品类别,每类 1000 张图片。
  • 特点:类别均衡,适合美食分类和食品识别应用。
  • 应用:餐饮推荐、自动菜单生成等。
  • 链接Food-101官网

9. Flowers-102#

  • 简介:包含 102 种花卉类别,每类 40 到 258 张图片。
  • 特点:提供高质量图片,分类任务适合用于研究特定领域的视觉识别。
  • 应用:植物分类、花卉识别。
  • 链接Flowers-102官网

10. Open Images Dataset#

  • 简介:谷歌提供的大型数据集,包含 900 万张图片,标注了 600 个类别。
  • 特点:图片中包含多种对象,并提供了位置信息和分割掩膜。
  • 应用:图像分类、目标检测、多标签任务。
  • 链接Open Images官网

11. DTD (Describable Textures Dataset)#

  • 简介:包含 47 种可描述纹理类别,如条纹、波纹、网状等,每类约 120 张图片。
  • 特点:关注纹理的识别,适合纹理建模任务。
  • 应用:材料分类、纹理分析。
  • 链接DTD官网

12. SUN (Scene Understanding Database)#

  • 简介:包含 397 类场景类别,共约 13 万张标注图片。
  • 特点:场景类别丰富,适用于细粒度场景分类任务。
  • 应用:视觉理解、智能监控系统。
  • 链接SUN官网

13. iNaturalist#

  • 简介:自然界生物分类的数据集,覆盖 8590 个类别,主要包含植物和动物的图像。
  • 特点:类别数量大且数据分布不平衡。
  • 应用:生物物种分类、生态学研究。
  • 链接iNaturalist官网

14. DeepFashion#

  • 简介:包含 80 万张服饰图片,涵盖服装分类、属性预测、关键点检测等任务。
  • 特点:丰富的服装样式和标注。
  • 应用:时尚推荐、服装搜索。
  • 链接DeepFashion官网

15. Animals with Attributes (AwA2)#

  • 简介:包含 37,322 张动物图片,分为 50 个类别,并提供属性标注。
  • 特点:结合图像分类和属性预测任务。
  • 应用:跨领域学习、零样本学习。
  • 链接AwA2官网

16. COCO (Common Objects in Context)#

  • 简介:COCO 是一个广泛用于计算机视觉任务的大型数据集,包含超过 33 万张图片,涵盖 80 个常见物体类别。
  • 特点
    • 多任务支持:不仅包含图像分类,还支持目标检测、分割、关键点检测、图像描述生成等任务。
    • 标注丰富:每张图片包含多个对象的边界框标注、分割掩膜、物体类别、每个物体的关键点信息。
    • 背景复杂:图片中物体通常在自然背景中,增强了数据的多样性和复杂性。
  • 应用:常用于目标检测、实例分割、图像描述等任务。
  • 链接COCO官网

17. PASCAL VOC (Visual Object Classes)#

  • 简介:PASCAL VOC 是一个经典的目标检测数据集,最初用于图像分类任务,后扩展到目标检测、分割等任务,包含 20 类物体。
  • 特点
    • 较小规模:包括 11,000 张图像,涵盖 20 个物体类别(如人、动物、交通工具等)。
    • 高质量标注:每个物体都有详细的边界框标注,部分数据集还提供分割标注。
    • 广泛使用:是目标检测和分割任务的经典基准数据集。
  • 应用:目标检测、图像分类、语义分割。
  • 链接PASCAL VOC官网

18. Open Images#

  • 简介:Open Images 是由 Google 提供的大规模数据集,包含约 900 万张图像,支持多种计算机视觉任务,包括图像分类、目标检测和图像分割等。
  • 特点
    • 海量数据:不仅包含大量图像,还支持 600 多个类别的物体标注,适合多类别的图像识别任务。
    • 详细标注:提供了边界框、分割掩膜、物体属性(如颜色、材质)以及关系标注。
    • 多样性:图像内容丰富,涵盖多个场景和各种物体,且标注信息完整。
  • 应用:图像分类、目标检测、实例分割、多标签分类等任务。
  • 链接Open Images官网

如何选择适合的数据集?#

  1. 根据任务目标
    • 目标是场景识别?选择 Places365。
    • 目标是细粒度分类?选择 Oxford-IIIT Pet 或 iNaturalist。
  2. 根据数据规模
    • 小规模实验:使用 CIFAR、Flowers-102。
    • 大规模实验:使用 ImageNet、Open Images。
  3. 考虑领域需求
    • 如果是医疗领域,选择 ChestX-ray14。
    • 如果是时尚领域,选择 DeepFashion。
posted @   bk街头狂舞  阅读(112)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!
点击右上角即可分享
微信分享提示
目录