性能度量
错误率与精度
常用于分类问题
错误率
精度
查准率、查全率与Fβ
混淆矩阵
以二分类为例,T:True,预测正确;F:False,预测错误;P:Positive,正样本;N:Negative,负样本
-
TP
True Positive,正确预测样本为正,实际就是正样本
-
FP
False Positive,错误预测样本为正,实际为负样本
-
TN
True Negatiive,正确预测样本为负,实际为负样本
-
FN
False Negative,错误预测样本为负,实际为正样本
查准率
Precision,在模型检测出来的阳性样本中(TP + FP),实际阳性样本(TP)所占的比例
查全率
Recall,在实际的阳性样本中(TP + FN),模型能够检测出来的阳性样本(TP)所占的比例
P-R曲线
查准率P作为纵轴,查全率R作为横轴
明显,模型B的性能要好于模型C,对于模型A与模型B,可以通过观察平衡点(P=R)进行比较
Fβ
在特定的分了任务中,对于查准率和查全率的侧重有所不同,Fβ可以指定对二者的不同偏好
β > 0
- β = 1,重视程度相同
- β > 1,对查全率有更大影响
- β < 1,对查准率有更大影响
对于公式推导参考:https://zhuanlan.zhihu.com/p/356694472,这里涉及到加权调和平均这个概念
以上P、R和Fβ的讨论是基于二分类的,对于多分类问题,可以转化为n个二分类问题,对应n个混淆矩阵,对于这个问题的解决方法有两种
-
macro
直接在各混淆矩阵上计算出P,R和F1,然后求平均值
-
micro
先对各混淆矩阵的对应元素进行平均,得到\(\overline{TP}\)、\(\overline{FP}\)、\(\overline{TN}\)、\(\overline{FN}\),然后再求P、R和F1
ROC与AUC
此处内容参考:https://zhuanlan.zhihu.com/p/573964757
相关概念
-
真正例率,TPR
True Positive Rate,在所有的正样本中,模型能够正确地预测为正样本所占的比例
-
假正例率,FPR
False Positive Rate,在所有的负样本中,模型错误地预测为正样本所占的比例
阈值变动
在二分类问题中,模型输出的是一个概率p
- p > 0.5,预测为类别0
- p < 0.5,预测为类别1
其中,0.5即为阈值,改变阈值,可以得到不同的(TPR,FPR),以TPR为纵轴,FPR为横轴,描点作图如下,即为ROC曲线
参考文章描述如下
AUC:Area Under Curve,即为ROC曲线下的面积
参考:周志华《机器学习》