论文阅读-Learning to Predict Visual Attributes in the Wild
摘要
视觉属性构成了场景中包含信息的大部分。物体可以使用多种属性来描述,这些属性展现了它们的视觉外观(颜色、纹理)、几何特征(形状、大小、姿态)以及其他内在属性(状态、动作)。现有工作大多局限于特定领域内的属性预测研究。在本文中,我们介绍了一个大规模的野外视觉属性预测数据集,该数据集包含超过260K个对象实例的超过927K个属性注释。正式来说,对象属性预测是一个多标签分类问题,需要预测适用于一个对象的所有属性。我们的数据集由于属性数量众多、标签稀疏、数据不平衡以及对象遮挡,对现有方法提出了重大挑战。为此,我们提出了一些技术,系统地解决这些挑战,包括一个利用低级和高级CNN特征的多跳注意力基础模型,重加权和平采样技术,一种新颖的负标签扩展方案,以及一种新颖的监督式属性感知对比学习算法。使用这些技术,我们在当前技术水平上实现了近3.7的mAP和5.7的整体F1分数的改进。
论文框架
提出VAW数据集
在网络的不同层级中,各种属性的识别难度和类型有所不同:浅层可以识别颜色属性,而深层则能识别更抽象的属性。
2.VAW数据集属性汇总
- 颜色 (color)
- 字母颜色 (letter color)
- 头发颜色 (hair color)
- 皮肤颜色 (skin color)
- 穿着颜色 (wearing color)
- 色调 (tone)
- 颜色数量 (color quantity)
- 亮度 (brightness)
- 高度 (height)
- 长度 (length)
- 宽度 (width)
- 肥度 (fatness)
- 尺寸 (size)
- 厚度 (thickness)
- 深度 (depth)
- 尺寸比较 (size comparison)
- 材料 (material)
- 形状 (shape)
3.论文所用指标
- mAP(mean average precision over all classes): 所有类别的平均精度均值。mAP 是属性预测和多标签学习领域中一个流行的评价指标。由于 VAW 数据集是部分标注的,我们只在标注数据上评估 mAP,这与文献 [64] 中的做法一致。mAP 反映了模型在所有类别上的平均性能,值越高,模型的整体预测能力越强。
- mR@15(mean recall over all classes at top 15 predictions in each image): 在每张图像的前 15 个预测中,所有类别的平均召回率。召回率@K 常用于那些没有完全标注的数据集,例如场景图生成任务中的文献 [77,12]。这个指标在多标签学习中也被称为“每类召回率” [13, 44, 28]。mR@15 衡量的是模型在前 15 个预测中能够召回多少正样本。
- F1@15: 由于上述指标可能对不常见类别有偏见,我们还报告了每张图像前 15 个预测的整体 F1 分数。由于 VAW 数据集是部分标注的,我们只评估已标注标签的预测。F1@15 是精确率和召回率的调和平均数,它同时考虑了精确率和召回率,能够更全面地评价模型的性能。
- mA(mean balanced accuracy over all classes): 使用 0.5 作为阈值来区分正负预测,所有类别的平均平衡准确度。这个指标在行人检测和人脸属性工作中被使用 [54, 42]。mA 衡量的是模型在所有类别上的平均性能,同时考虑了每个类别的样本数量,使得评价更加均衡。
总结来说,这些指标都是在评估模型在不同任务上的性能,其中 mAP 和 F1@15 更侧重于模型的整体预测能力,而 mR@15 和 mA 则分别侧重于模型在前 15 个预测中的召回率和所有类别上的平衡性能。这些指标综合使用,可以全面地评价模型在不同场景下的表现。
每类召回率计算
计算该类真实标注的正例总数pos_class1_nums,对具有该正例的图片的pred进行排序,当该属性预测P在top15内,则正确预测class1_pre_nums+1,统计所有图片,该类的recall(top15):
recall = class1_pre_nums/pos_class1_nums
#例如,针对blue这个属性
#21819张图片中,其中1000张图片都具有该属性
pos_class1_nums = 1000
#模型对该1000张图片进行预测,只有其中的500张,pred在top15内
class1_pre_nums = 500
#该属性的recall
recall = class1_pre_nums/pos_class1_nums
对所有属性计算recall(top15)
mean_recall = 所有属性累加recall/属性总数