常用模型评估方法总结

1.线性相关系数(皮尔逊相关系数）（用于描述两个变量之间相关性的强弱，系数越大相关性越强）

r_xy=∑(x_i-x^-)(y_i-y^-)÷√∑(x_i-x^-)²(y_i-y^-)²

一般判别效力为：

无相关←0.2←弱→0.4←中→0.6←强→0.8←极强→1

^{2.决定系数（用于描述非线性或两个以上自变量的相关关系，也可用于评价模型效果）}

(R²对变量进行线性回归后，评价拟合优度，越大越好，如R²=0.8，则表明x对y的影响占比80%以上）

总平方和 SST=∑_i=1(y_i-y^-)²

回归平方和 SSR=∑_i=1(y^ˆ-y^-)²

残差平方和 SSE=∑_i=1(y_i-y^ˆ)^{2 衡量回归线与各点之间的距离，越小越好}

三者关系为 SST=SSR+SSE

决定系数 R²=SSR/SST=1-SSE/SST

3.混淆矩阵（用于二分类问题模型评估）

一级指标

二级指标

准确率 ACC(A)=TP+TN / TP+FP+FN+TN 在所有预测结果中，预测对了的占比

精确度 PPV(P)=TP/(TP+FP) 在预测为 1 的所有结果中，预测对了的占比

灵敏度 TPR(R)=TP/(TP+FN) 在真实为1 的所有结果中，预测对了的占比

FPR(F)=FP/(FP+TN) 在真实为 0 的所有结果中，预测为1的占比

特异度 TNR(S)=TN/(FP+TN) 在真实为 0 的所有结果中，预测对了的占比

三级指标

调和平均 F1score(F1)=(2×P×R)÷(P+R) 介于0---1 之间，越大越好

4.ROC曲线&AUC面积（对模型整体效力做评估）

其中红线=ROC曲线

蓝线表示x=y(表示模型没有判别效力）

红线以下面积=AUC面积

x=1-特异度

y=灵敏度（召回率）

解释为当特异度等于x时，灵敏度=y

注：好的ROC曲线应该一开始就快速上升之后保持平行前进

如果ROC曲线在蓝线附近徘徊，表明模型没有判别效力，因为二分类问题，瞎猜正确率也是50%。

一般AUC 面积大于0.7模型才可用，在0.5左右表示模型没有判别作用

5.KS 曲线（用于判别模型的最优划分概率，只看最大的一个）

参考混淆矩阵

其中：

红线=TPR 蓝线=FPR 绿线 = Ks曲线

TPR与FPR之间的差值就是Ks值

Ks值=|TPR-FPR|*100

一般判别效力为：

0←无→20←能用→40←较好→60←记号→75←过拟合模型有问题→100

6.轮廓系数（第二个用于聚类模型有效性判断的方法，第一个是SSE)

几个概念：

1.凝聚度：一个小簇里面的SSE

2.分离度：各个簇的质心的距离平方和，也就是任意两个质心的距离和，或者每一个质心到总体质心的平方和，两者相等。

公式 Si=（b_i-a_i）/ max（a_i，b_i）

其中：a_i=一个簇内一个点到所有点的距离均值

b_{i=一个点到其他所有簇的所有点的距离均值中最小的一个}

S_i 介于-1 到 1 之间越大越好

a_i 越接近0越好

7.收益曲线（也是用于寻找最佳阈值）

假设：

判别对一个收益 100

判错一个损失 200

哪个收益最高用哪个

posted on 2019-11-23 03:35 11-21 阅读(5683) 评论(0) 编辑收藏举报

刷新页面返回顶部

11-21

常用模型评估方法总结

导航

公告