计算机视觉知识梳理-指标计算（混淆矩阵、TP、FP、TN、FN、ACC、Recall、Precision、Sensitivity、Specify、PPV、NPV、TPR、FPR、FNR、ROC、AUC、F1-score、PR、IOU、AP、mAP、DICE）

总结：

A、recall=sensitivity=TPR,即召回率=灵敏度=真正例率

B、FPR=1-specify，即假阳性率(误诊率)=1-特异度

C、PR曲线的横坐标为ROC曲线的纵坐标

D、正负例样本比例变化较大的情况下，PR曲线受影响较大，ROC曲线相对鲁棒，所以，ROC曲线能降低不同测试集带来的干扰，客观衡量模型性能；但关注模型在不均衡数据集下的结果时，PR曲线则能较好反应指标情况。

E、AP是PR曲线下面积，各个数据集计算AP方式有区别

F、IOU与DICE可以互推:IOU=DICE/(2-DICE)

详细内容介绍如下：

1.混淆矩阵

行索引为GT，列索引为预测

TP(True Positive):实际为正例，预测为正例的数量

TN(True Negative):实际为负例，预测为负例的数量

FP(False Positive):实际为负例，预测为正例的数量

FN(False Negative):实际为正例，预测为负例的数量

a.T和F代表预测是否正确(T代表预测正确，F代表预测错误)

b.P和N则代表预测的结果，P代表预测为正例，N代表预测为负例

c.T/F与P/N相结合起来，就是最终的GT，例如TP代表GT为正例，FP代表GT为负例。

d.正例和负例是人为确定的，一般设定关注的类别为正例

e.设定当前类为正例后，其余类均为负例

2.分类指标总结

Accuracy(准确率)：预测对的数量占整体数量的比例

acc=(TP+TN)/(TP+TN+FP+FN)

Recall(召回率/查全率/检出率):预测对的正例的数量占整体正例的比例，即正例的检出比例（正例比较重要时，容易关注这个指标，比如希望查出所有患癌症的病人）

recall=TP/(TP+FN)

Precision(精确率/查准率):预测对的正例的数量占所有预测为正例的数量的比例，用于衡量预测的准不准

precision=TP/(TP+FP)

F1-Score:是precision和recall的调和平均数，例如，模型A的recall高，precision低，模型B相反，那怎么综合比较模型A和B的性能呢，用这个

F1-Score=2*(Precision*Recall)/(Precision+Recall)

Sensitivity(灵敏度):正例的召回率（或检出率）

sensitivity=TP/(TP+FN)=Recall

Specify(特异度):负例的召回率（或检出率）

specify=TN/(TN+FP)

PPV(Positive Predictive Value):阳性预测值，等同于精确率，预测为正例的人中，真的正例所占比例。

PPV=TP/(TP+FP)=precision

NPV(Negative predictive value):阴性预测值，预测为负例的人中，真的负例所占比例，等同于负例的精确率

NPV=TN/(TN+FN)

TPR(True Positive rate):真正例率,等同于正例的召回或灵敏度

TPR=TP/(TP+FN)=recall=sensitivity

FPR(False Positive Rate):假正例率,即误诊率（没病检测出有病是误诊，有病检测出没病是漏诊），没病检测出有病占整体没病人数的比例。

FPR=FP/(FP+TN)=1-specify (参考混淆矩阵)

FNR(False Negative Rate):假阴性率，即漏诊率，有病检测出没病占真正有病的比例：

FNR=FN/(TP+FN)=1-sensitivity=1-recall

ROC曲线

按照模型输出的正例预测概率排序，顺序为从高到低，之后将每个概率值作为阈值，得到多个混淆矩阵，对应多对TPR和FPR，将FPR的值作为X轴的值，TPR的值作为Y轴的值，以此作图，图中的点连成的曲线就是ROC曲线，体现的是随着检出率的增加，误诊率的增加情况，好模型的ROC曲线应该随着阈值变化，检出率持续增加，而误诊率几乎保持恒定为零，如下图。

AUC(area under curve):ROC曲线下的面积，认为曲线面积越大，模型效果越好（只凭ROC曲线难以判断具体哪个模型好）。AUC的特点是不会受正负样本比例的影响。

PR曲线：是recall和precision点所连成的曲线，recall的值为x轴，precision的值为y轴。由于TPR=recall，所以PR曲线的横坐标为ROC曲线的纵坐标，正负例样本比例变化较大的情况下，PR曲线受影响较大，ROC曲线相对鲁棒。

所以，在正负例样本不均衡情况下，ROC曲线更能客观衡量模型性能，降低不同测试集的干扰；如果就想看模型在不均衡数据集下的结果，PR曲线则能较好反应指标情况。

2. 目标检测指标总结

介绍指标之前先介绍一下什么是IOU(后面会用到)：

　　IOU(Intersection over Union):交并比,取值范围为[0,1]

IOU=|GT∩Predict|/|GT∪Predict|

=intersection/(GT+Predict-intersection)

目标检测的输出有：预测目标的位置坐标(bbox)、分类(classification)和置信度(confidence)

TP，FP，FN定义如下：

TP：iou>0.5，一个GT计算一次,即使多个预测框满足条件；

FP：iou<=0.5，或在一个GT上多出来的iou>0.5检测框；

FN：没有检测出来的GT；

既然有TP、FP、FN，那么分类任务的指标在这里也是可以用的，除此之外，再介绍一下仅适用于目标检测任务的指标AP和mAP:

　　AP(average precision)：平均精确率，是PR曲线下的面积。

　　对某一类别预测框的置信度进行排序，从大到小，以每个置信度为阈值，计算precision和recall，将点连成线，连线的每个峰值均向x轴和y轴做垂线（重复区域合并），这些曲线所包含的面积就是这个类别对应的AP（每个类别均有AP）

　　 mAP(mean average precision):对各个类别的AP取平均，即 MAP = 各类别的AP求和/类别数量

实际上，不同数据集对AP的计算方式不同，介绍如下：

PASCAL Voc 2008的AP计算：

（1）IOU阈值为0.5

（2）一个GT只有一个正例，冗余检测框为负例

（3）在平滑之后的pr曲线上进行计算，即将横轴均分十段（recall=0也是一个点，共11个点），AP为每个点对应的presion值的平均值（先求11个点的precision值的和，再除以11）

PASCAL Voc 2010之后的AP计算：

　　依然在平滑值的pr曲线上计算，这次是利用积分计算曲线下的面积，作为AP值

COCO数据集的AP计算：

与VOC 2008分10段不同，COCO采样了100个点，且IOU是从0.5到0.95，每隔0.05取值一次，作为阈值，COCO的AP是已经对不同阈值、不同类别取平均之后的结果，已经相当于mAP了，此外，COCO还有AP₅₀、AP₇₅、AP_S、AP_M、AP_L指标，分别代表：

　　AP₅₀代表iou阈值为0.5时，各个分类的AP均值

　　AP₇₅代表iou阈值为0.75时，各个分类的AP均值

　　AP_S代表GT面积小于32x32的各分类的AP均值

　　AP_M代表GT面积介于32x32到96x96之间的各分类的AP均值

　　AP_L代表GT面积大于96x96的各分类的AP均值

3. 语义分割指标总结

由于语义分割是像素级别的分类，所以分类任务的指标也是可以用到语义分割任务上的，此处再介绍两个语义分割任务的常用指标IOU和DICE.

IOU：计算方式上文已有提及，与目标检测计算两个矩形框的交并比不同，语义分割的iou计算的是像素级别的交并比。

DICE(dice similarity coefficient)公式:

DICE = 2|GT∩Predict| / (|GT|+|Predict|)

此外：

IOU与DICE可以互推:

IOU=DICE/(2-DICE)

参考文献

PR与F1-score的关系参考：https://www.cnblogs.com/dataanaly/p/12924002.html

AP绘制参考：https://blog.csdn.net/wzk4869/article/details/130778741

不同数据集的AP计算参考：https://zhuanlan.zhihu.com/p/360539304

posted on 2024-04-25 09:15 一点飞鸿阅读(2911) 评论(0) 编辑收藏举报