评估曲线
曲线: P-R
X轴是Percision, Y轴是Reall。
Percision=TP/FP+TP,也就是预测是阳性并且正确的/预测是阳性的。这个值大意味着这个模型预测出来的阳性很多都是对的,当置信度大时,一般精确度也大。
Recall=TP/TP+FN, 也就是预测是阳性并且正确/所有的阳性。Recall越高,表示漏掉的阳性越少如果把所有的数据集都预测为阳性,那么Recall就是1,非常高,但是精确度就低了,预测错很多。
比较理想的状态是Recall很高,Percision也很高,当所有的正样本都被挑出来了,并没有一个隐性的被挑出来当成阳性,这时Recall和Percision都是1.
曲线: Lift
Lift值=Percision/Baseline
可以用随机的方法选取正样本的概率作为Baseline,也就是正样本的个数/样本总数。
Lift值越大说明使用这个模型比随机选好的越多。Lift曲线的X轴是Depth, 它是预测为正例的比例,这个值越大,相当于阈值越小,阈值越小Percision越低,
所以在最右侧Depth很大,Lift的值很小,在左侧相反。
曲线:KS
曲线的X轴是阈值,y轴是0到1,可以分别绘值fpr和tpr的曲线,KS曲线实际上是fpr+tpr,这其中tpr-fpr的最大值值就是KS值,值越高说明模型分辨正负样本的能力越强。