ROC 曲线和 AUC 值
1、混淆矩阵:
预测类标 | ||||
1 | 0 | 合计 | ||
真 实 类 标 |
1 | TP | FN | P |
0 | FP | TN | N | |
合计 | P' | N' | P+N |
混淆矩阵的四个术语:真正例 / 真阳性(TP),真负例 / 真阴性(TN),假正例 / 假阳性(FP)、假负例 / 假阴性(FN)。
2、分类器涉及的常见评估度量:
度量 | 公式 |
准确率 |
(TP+TN)/(P+N) |
错误率 | (FP+FN)/(P+N) |
真正例率 / 召回率 / 查全率 | TP / P = TP / (TP+FN) |
真负例率 | TN / N |
查准率 / 精度 | TP / P' = TP / (TP+FP) |
假正例率 | FP / N = FP / (FP+TN) |
F1 分数 |
2*(查准率*查全率)/ (查准率+查全率)= 2*TP /(P+N+TP-TN) |
3、ROC 曲线
横轴:假正例率 FPR
纵轴:真正例率 TPR
1)、概率分类器对10个测试样本返回的预测概率值的排序表
编号 | 类标 | Φ(z) | TP | FP | TN | FN | TPR | FPR |
1 |
1 | 0.90 | 1 | 0 | 5 | 4 | 0.2 | 0 |
2 | 1 | 0.80 | 2 | 0 | 5 | 3 | 0.4 | 0 |
3 | 0 | 0.70 | 2 | 1 | 4 | 3 | 0.4 | 0.2 |
4 | 1 | 0.60 | 3 | 1 | 4 | 2 | 0.6 | 0.2 |
5 | 1 | 0.55 | 4 | 1 | 4 | 1 | 0.8 | 0.2 |
6 | 0 | 0.54 | 4 | 2 | 3 | 1 | 0.8 | 0.4 |
7 | 0 | 0.53 | 4 | 3 | 2 | 1 | 0.8 | 0.6 |
8 | 0 | 0.51 | 4 | 4 | 1 | 1 | 0.8 | 0.8 |
9 | 1 | 0.50 | 5 | 4 | 1 | 0 | 1.0 | 0.8 |
10 | 0 | 0.40 | 5 | 5 | 0 | 0 | 1.0 | 1.0 |
2)、用 Excel 绘制 ROC曲线
ROC 曲线之下的那部分面积值就是模型的 AUC 值。
如果模型真的很好,随着有序列表向下移动,开始会遇到真正例样本,曲线将陡峭的从 0 开始上升;之后 ,遇到的真正例样本越来越少,假正例样本越来越多,曲线变得平缓趋于水品。
非学无以广才,非志无以成学。