大数据风控指标----查准率与查全率
大数据风控指标介绍
1查准率与查全率
先说个例子,申请人有400个,其中有160个是好人,240个是坏人。我们用一个模型A,挑出了100个好人,其中真正的好人是80个,剩下20个是漏网之鱼。
我们定义一个“查准率”(precision),为挑出来的好人中,真正是好人的比例。即:
同时,我们定义一个“查全率”(recall),为查出来的好人占总的好人的比例。即:
“查准率”和“查全率”是一对矛盾的概念。通俗来讲,要想“查准率”高,要把标准卡的严苛一些(模型的分数阈值取的高些,让绝大多数申请人都判断为坏人,只有极少数特别好的人判断为好人)。但同时,因为通过的人较少,占总的好人的比例必然降低。即,“查全率”会降低,更多的好人被误判为坏人了。
反过来,如果标准卡的松些,更多的好人被挑了出来,“查全率”提高了。但是,漏网之鱼也更多了,“查准率”自然会降低。
2查准率,查全率和通过率,坏账率的关系
“通过率”和“坏账率”是风险控制上的术语,而“查准率”和“查全率”是机器学习的专业数据。他们表达的意思是一致的,但具体的含义是不同的。
“坏账率”的意思是,判断为好人的群体中,真正的坏人所占的比例。即:
可见
即“坏账率”与“查准率”的和就是100%,两个指标只是从正反两个反面来考察同一个物理意义。
“通过率”为模型判断为好人的人数占总人数的比例,即
本例中,通过率为100/400=25%。
为什么业内很少用“查全率”,而用“通过率”这个概念呢?
这是因为,在真实的业务中,我们拒绝掉的那一部分申请中,有多少是好人,我们是不清楚的,所以“查全率”的概念,只能在模型训练的时候使用(训练的用例都是已知结果的)。而“通过率”则可以直接度量,简单易算。从物理意义上将,两者度量的目标是一致的。
3评价风控的指标是什么呢?
谈起一家金融公司的风控能力,外行往往只谈论“坏账率”这一个指标。这是不全面的。不过作为第三方,谁又关心它的“通过率”呢?尤其是以这样的资产理财的人,巴不得坏账率为零,自己遭受损失的风险是最小的。但从内控来讲,风控部门的人员,是希望“坏账率”降低的,这提现了他们的风控能力是很强的,并且他们的收入,往往也跟坏账是挂钩的。
但是,如果“坏账率”很小了,“通过率”也很小,金融公司均摊到单个成交客户上的运作成本就很高。在真实的业务中,获取客户和审核客户都是有很高的成本的。如果没有成交,这些成本都白费了。业务人员的绩效中,也往往以成交作为度量的,成交越多,每月领的薪水就越多。所以从业绩的考虑,业务人员是有动力希望“通过率”变高的。
另外,“通过率”还会影响用户的体验。如果申请的贷款被拒绝的比例很高,客户很可能费了很多功夫,却不能借到钱,怨气就会很大,用户体验变差。但如果“通过率”很高,往往意味着风控能力比较弱,骗子们就会扎堆来钻空子,造成“坏账率”的急剧增高。
所以,“通过率”和“坏账率”这一对矛盾的指标,是金融公司业务部门与风控部门斗争的直观体现。而最终的结果,往往是两者之间的平衡,即在一定的坏账率范围内,争取更高的“通过率”,在一定的“通过率”的情况下,让“坏账率”尽量更低。这个平衡,不仅对内部的管理非常重要,也对公司的金融产品设计和用户体验有重大的影响。