分类器性能评估之PR曲线与ROC曲线
precision & recall 与 PR曲线
Precision中文名查准率,精确率:表示预测为正样本的样本集中真正正样本的比例
Recall中文名查全率,召回率:表示真正为正样本的样本集中被预测为正样本的比例
其中TP,TN,FP,FN的T/F代表预测是否正确(True/False),P/N代表预测结果是正样本还是负样本(Positive/Negative)
Accuracy准确率的定义为预测正确的样本占总样本集的比例
可以看到Precision与Recall更关注正样本的预测情况,而accuracy同时关注正负样本的预测情况
Precison与Recall随着正样本阈值(0~1,一般为0.5)的改变所呈现出的曲线就被称为P&R曲线,该曲线所围的面积越大,说明分类效果越好,而从图中也可以看到,Precison与Recall实际上是两个有些矛盾的指标,查的越准就越难查全,查的越全就越难查准。
由于P&R曲线所围面积并不是很容易估算,所以常使用F score来综合考虑查准率与查全率的影响:
可以看到F socre中 \(\beta\) 越大代表查全率越重要,反之代表查准率越重要。而F1 score为$ \beta=1$的特殊情况,是Precision与Recall的调和平均数。
ROC曲线与AUC面积
ROC全称为受试者工作特征,是另一种评估模型综合性能的度量方式。
这里我们定义真正率为(正确判断为正样本的正样本占所有正样本的比例,其实就是召回率)$$\uparrow TPR=TP/(TP+FN)$$
定义假正率(被误判为正样本的负样本占所有负样本的比例)$$\downarrow FPR=FP/(FP+TN)$$
则ROC曲线就是以真正率为纵轴,假正率为横轴的一条曲线。由于ROC计算时仅仅只用正负样本子集做分母,因此其不受样本不平衡的影响。类似于PR曲线,ROC曲线也是通过遍历不同阈值所绘制而成,AUC为ROC所围的面积,面积越大代表模型分类性能越好,也就是说TPR越大越好,FPR越小越好,曲线越靠左上角越好。
相比于PR曲线,ROC曲线更不容易收到样本不平衡的影响,因为随着测试集中负样本的增加召回率不受影响,精确率却会随之降低,而假正率由于分子分母同时会增大,也基本不受影响。
那么对于同一个模型而言:如果测试集样本由平衡转化为不平衡(负样本数量增多),带来的后果是:查全率不变,查准率下降,F1下降,PR曲线所围面积也下降;而真正率不变,假正率几乎不变,故AUC几乎不变。因此ROC相比于PR曲线更适合与测试样本严重不均衡的情况,但是PR曲线更加直观的表示了我们更关心的正样本表现出的查准率与查全率。