P-R曲线及与ROC曲线区别

一、P-R曲线

P-R曲线刻画查准率和查全率之间的关系，查准率指的是在所有预测为正例的数据中，真正例所占的比例，查全率是指预测为真正例的数据占所有正例数据的比例。
即：查准率P=TP／(TP + FP) 查全率=TP／（TP+FN）
查准率和查全率是一对矛盾的度量，一般来说，查准率高时，查全率往往偏低，查全率高时，查准率往往偏低，例如，若希望将好瓜尽可能多选出来，则可通过增加选瓜的数量来实现，如果希望将所有的西瓜都选上，那么所有的好瓜必然都被选上了，但这样查准率就会较低；若希望选出的瓜中好瓜比例尽可能高，则可只挑选最有把握的瓜，但这样就难免会漏掉不少好瓜，使得查全率较低。

在很多情况下，我们可以根据学习器的预测结果对样例进行排序，排在前面的是学习器认为最可能是正例的样本，排在后面的是学习器认为最不可能是正例的样本，按此顺序逐个把样本作为正例进行预测，则每次可计算当前的查全率和查准率，以查准率为y轴，以查全率为x轴，可以画出下面的P-R曲线。

如果一个学习器的P-R曲线被另一个学习器的P-R曲线完全包住，则可断言后者的性能优于前者，例如上面的A和B优于学习器C，但是A和B的性能无法直接判断，但我们往往仍希望把学习器A和学习器B进行一个比较，我们可以根据曲线下方的面积大小来进行比较，但更常用的是平衡点或者是F1值。平衡点（BEP）是查准率=查全率时的取值，如果这个值较大，则说明学习器的性能较好。而F1 = 2 * P * R ／( P + R )，同样，F1值越大，我们可以认为该学习器的性能较好。

联合建模(BJ)P-R曲线

二、P-R曲线和ROC曲线有什么区别，如何选择呢？

说明：图a和b是原始样本的ROC曲线和PR曲线，图c和d是将负样本增加10倍后的ROC曲线和PR曲线。

1）从a和c可以看出，负样本增加10倍后，ROC曲线变化不大。分析一下为什么变化不大，其Y轴是TPR，x轴是FPR，当固定一个threshold来计算TPR和FPR的时候，虽然负样本增加了10倍，也就是FPR的分母虽然变大了，但是正常概率来讲，这个时候超过threshold的负样本量也会随之增加，也就是分子也会随之增加，所以总体FPR变化不大，从这个角度来看的话正负样本稍微不均衡的话，对KS影响也不大，因为KS=max(TPR-FPR)，这个前提是正负样本的量都比较大的情况下，因为只有样本量比较大的情况下，根据大数定律，计算出来的频率才非常接近于真实的概率值，有资料显示正负样本都超过6000的量，计算的频率就比较接近概率。所以在样本量都不是很大的情况下，如果样本还极端不均衡的话，就会有一些影响。由此可见，ROC曲线能够尽量降低不同测试集带来的干扰，更加客观地衡量模型本身的性能。

2）从b和d图可以看出，负样本增加10倍后，PR曲线变化比较大。也分析一下为什们变化大，其Y轴是precision,x轴是recall，当负样本增加10倍后，在racall不变的情况下，必然召回了更多的负样本，所以精确度会大幅下降，b和d图示也非常明显的反映了这一状况，所以PR曲线变化很大，所以PR曲线对正负样本分布比较敏感。

如何选择呢？

在很多实际问题中，正负样本数量往往很不均衡。比如，计算广告领域经常涉及转化率模型，正样本的数量往往是负样本数量的1/1000，甚至1/10000。若选择不同的测试集，P-R曲线的变化就会非常大，而ROC曲线则能够更加稳定地反映模型本身的好坏。所以，ROC曲线的适用场景更多，被广泛用于排序、推荐、广告等领域。

但需要注意的是，选择P-R曲线还是ROC曲线是因实际问题而异的，如果研究者希望更多地看到模型在特定数据集上的表现，P-R曲线则能够更直观地反映其性能。
PR曲线比ROC曲线更加关注正样本，而ROC则兼顾了两者。
AUC越大，反映出正样本的预测结果更加靠前。（推荐的样本更能符合用户的喜好）
当正负样本比例失调时，比如正样本1个，负样本100个，则ROC曲线变化不大，此时用PR曲线更加能反映出分类器性能的好坏。这个时候指的是两个分类器，因为只有一个正样本，所以在画auc的时候变化可能不太大；但是在画PR曲线的时候，因为要召回这一个正样本，看哪个分类器同时召回了更少的负样本，差的分类器就会召回更多的负样本，这样precision必然大幅下降，这样分类器性能对比就出来了。

posted @ 2018-12-18 14:48 光彩照人阅读(12692) 评论(0) 编辑收藏举报

刷新页面返回顶部

光彩照人

每一次挫折都是一次蜕变，挫折越大，蜕变越彻底！

P-R曲线及与ROC曲线区别

公告