性能度量

错误率与精度

常用于分类问题

错误率

image-20230511155347213

精度

image-20230511155401703

查准率、查全率与Fβ

混淆矩阵

以二分类为例,T:True,预测正确;F:False,预测错误;P:Positive,正样本;N:Negative,负样本

  • TP

    True Positive,正确预测样本为正,实际就是正样本

  • FP

    False Positive,错误预测样本为正,实际为负样本

  • TN

    True Negatiive,正确预测样本为负,实际为负样本

  • FN

    False Negative,错误预测样本为负,实际为正样本

image-20230511155552624

查准率

Precision,在模型检测出来的阳性样本中(TP + FP),实际阳性样本(TP)所占的比例

image-20230511160210201

查全率

Recall,在实际的阳性样本中(TP + FN),模型能够检测出来的阳性样本(TP)所占的比例

image-20230511160241715

P-R曲线

查准率P作为纵轴,查全率R作为横轴

image-20230511161037552

明显,模型B的性能要好于模型C,对于模型A与模型B,可以通过观察平衡点(P=R)进行比较

Fβ

在特定的分了任务中,对于查准率和查全率的侧重有所不同,Fβ可以指定对二者的不同偏好

image-20230511162212942

β > 0

  • β = 1,重视程度相同
  • β > 1,对查全率有更大影响
  • β < 1,对查准率有更大影响

对于公式推导参考:https://zhuanlan.zhihu.com/p/356694472,这里涉及到加权调和平均这个概念

以上P、R和Fβ的讨论是基于二分类的,对于多分类问题,可以转化为n个二分类问题,对应n个混淆矩阵,对于这个问题的解决方法有两种

  • macro

    直接在各混淆矩阵上计算出P,R和F1,然后求平均值

    image-20230511170155883
  • micro

    先对各混淆矩阵的对应元素进行平均,得到\(\overline{TP}\)\(\overline{FP}\)\(\overline{TN}\)\(\overline{FN}\),然后再求P、R和F1

    image-20230511170601605 image-20230511170625889 image-20230511170650525

ROC与AUC

此处内容参考:https://zhuanlan.zhihu.com/p/573964757

相关概念

  • 真正例率,TPR

    True Positive Rate,在所有的正样本中,模型能够正确地预测为正样本所占的比例

    image-20230512094540076
  • 假正例率,FPR

    False Positive Rate,在所有的负样本中,模型错误地预测为正样本所占的比例

    image-20230512095005292

阈值变动

在二分类问题中,模型输出的是一个概率p

  • p > 0.5,预测为类别0
  • p < 0.5,预测为类别1

其中,0.5即为阈值,改变阈值,可以得到不同的(TPR,FPR),以TPR为纵轴,FPR为横轴,描点作图如下,即为ROC曲线

image-20230512095510144

参考文章描述如下

image-20230512095626840

AUC:Area Under Curve,即为ROC曲线下的面积

参考:周志华《机器学习》

posted @ 2023-05-12 09:57  dctwan  阅读(19)  评论(0编辑  收藏  举报