论文阅读-Learning to Predict Visual Attributes in the Wild

摘要

视觉属性构成了场景中包含信息的大部分。物体可以使用多种属性来描述,这些属性展现了它们的视觉外观(颜色、纹理)、几何特征(形状、大小、姿态)以及其他内在属性(状态、动作)。现有工作大多局限于特定领域内的属性预测研究。在本文中,我们介绍了一个大规模的野外视觉属性预测数据集,该数据集包含超过260K个对象实例的超过927K个属性注释。正式来说,对象属性预测是一个多标签分类问题,需要预测适用于一个对象的所有属性。我们的数据集由于属性数量众多、标签稀疏、数据不平衡以及对象遮挡,对现有方法提出了重大挑战。为此,我们提出了一些技术,系统地解决这些挑战,包括一个利用低级和高级CNN特征的多跳注意力基础模型,重加权和平采样技术,一种新颖的负标签扩展方案,以及一种新颖的监督式属性感知对比学习算法。使用这些技术,我们在当前技术水平上实现了近3.7的mAP和5.7的整体F1分数的改进。

论文框架

image

提出VAW数据集

在网络的不同层级中,各种属性的识别难度和类型有所不同:浅层可以识别颜色属性,而深层则能识别更抽象的属性。

2.VAW数据集属性汇总

  • 颜色 (color)
  • 字母颜色 (letter color)
  • 头发颜色 (hair color)
  • 皮肤颜色 (skin color)
  • 穿着颜色 (wearing color)
  • 色调 (tone)
  • 颜色数量 (color quantity)
  • 亮度 (brightness)
  • 高度 (height)
  • 长度 (length)
  • 宽度 (width)
  • 肥度 (fatness)
  • 尺寸 (size)
  • 厚度 (thickness)
  • 深度 (depth)
  • 尺寸比较 (size comparison)
  • 材料 (material)
  • 形状 (shape)

3.论文所用指标

  • mAP(mean average precision over all classes): 所有类别的平均精度均值。mAP 是属性预测和多标签学习领域中一个流行的评价指标。由于 VAW 数据集是部分标注的,我们只在标注数据上评估 mAP,这与文献 [64] 中的做法一致。mAP 反映了模型在所有类别上的平均性能,值越高,模型的整体预测能力越强。
  • mR@15(mean recall over all classes at top 15 predictions in each image): 在每张图像的前 15 个预测中,所有类别的平均召回率。召回率@K 常用于那些没有完全标注的数据集,例如场景图生成任务中的文献 [77,12]。这个指标在多标签学习中也被称为“每类召回率” [13, 44, 28]。mR@15 衡量的是模型在前 15 个预测中能够召回多少正样本。
  • F1@15: 由于上述指标可能对不常见类别有偏见,我们还报告了每张图像前 15 个预测的整体 F1 分数。由于 VAW 数据集是部分标注的,我们只评估已标注标签的预测。F1@15 是精确率和召回率的调和平均数,它同时考虑了精确率和召回率,能够更全面地评价模型的性能。
  • mA(mean balanced accuracy over all classes): 使用 0.5 作为阈值来区分正负预测,所有类别的平均平衡准确度。这个指标在行人检测和人脸属性工作中被使用 [54, 42]。mA 衡量的是模型在所有类别上的平均性能,同时考虑了每个类别的样本数量,使得评价更加均衡。
    总结来说,这些指标都是在评估模型在不同任务上的性能,其中 mAP 和 F1@15 更侧重于模型的整体预测能力,而 mR@15 和 mA 则分别侧重于模型在前 15 个预测中的召回率和所有类别上的平衡性能。这些指标综合使用,可以全面地评价模型在不同场景下的表现。

每类召回率计算

计算该类真实标注的正例总数pos_class1_nums,对具有该正例的图片的pred进行排序,当该属性预测P在top15内,则正确预测class1_pre_nums+1,统计所有图片,该类的recall(top15):

recall = class1_pre_nums/pos_class1_nums
#例如,针对blue这个属性
#21819张图片中,其中1000张图片都具有该属性
pos_class1_nums = 1000

#模型对该1000张图片进行预测,只有其中的500张,pred在top15内
class1_pre_nums = 500

#该属性的recall
recall = class1_pre_nums/pos_class1_nums

对所有属性计算recall(top15)
mean_recall = 所有属性累加recall/属性总数

研究背景和动机

1. 这篇论文试图解决什么问题?

2. 为什么这个问题重要?

3. 这个问题在当前的研究领域中有哪些已知的解决方案?

研究方法和创新点

4. 论文提出了什么新的方法或模型?

5. 这个方法或模型是如何工作的?

6. 它与现有的方法相比有哪些改进?

7. 论文中的创新点是否显著且有实际意义?

理论和实证分析

8. 论文是否提供了足够的理论支持其方法?

9. 实验设计是否合理?

10. 实验结果是否支持论文的结论?

评估和比较

11. 论文是如何评估其方法的性能的?

应用和影响

12. 论文的方法有哪些局限性?

13. 有哪些潜在的问题或挑战需要进一步研究?

个人理解和应用

14. 这个方法是否可以应用到我的研究或工作中?

posted @ 2024-10-25 17:01  seekwhale13  阅读(16)  评论(0编辑  收藏  举报