使用逻辑回归制作评分卡

1、什么是评分卡?

在银行借贷场景中,评分卡是一种以分数形式来衡量一个客户的信用风险大小的手段,一般来说,评分卡打出的分数越高,客户的信用越好,风险越小。

 

2、评分卡怎么使用?

对于需要借贷的个人或者公司,在借贷时需要填写一张表格,表格内容包括年龄,收入,家庭人口数量等等。评分卡将每个特征划分为几个区间,每个区间有一个分数。根据客户所填信息对照评分卡,为客户所填的每一个特征赋一个分数,最后相加计算这个用户的总得分。依据总得分评估他的信用程度。

 

3、怎么使用逻辑回归制作评分卡?

制作评分卡需要大量客户所填的信息(特征矩阵X),以及该客户是否违约的信息(标签Y)。

(1)对特征矩阵X进行数据预处理。包括去除重复值,填补缺失值(仅有极少数样本缺失该特征可考虑直接删除该特征,可使用均值填补家庭人数,随机森林填补收入等),处理异常值,处理样本不均衡问题(使用过采样和欠采样的方法),但是我们一般不对数据进行标准化处理(这是因为我们给出的评分卡是给业务人员看的,而客户所填信息天生就是量纲不统一的)。

(2)找出每个特征最佳分箱数和箱子边界。最佳分箱数就是使得该特征的IV值尽量在最佳IV值区间的箱子个数(尽量提高每个特征的重要性),并且使得该特征的箱内相似,箱间差异大。因此步骤是这样的:首先确定一个较大的分箱数,进行等频分箱,计算各箱WOE值和特征的IV值,然后依据卡方检验值合并相似箱子,再次计算各箱WOE值以及该特征IV值,直到箱子数量变为一个较小值。画出分箱数-IV值曲线,找出最佳分箱数和各箱边界。

(3)对各个特征依据最佳分箱边界进行分箱。分箱后得到特征的各箱边界以及WOE值。

(4)处理训练集和测试集的特征矩阵X。将特征矩阵中的值全部替换为对应箱子的WOE值。

(5)使用训练集进行建模,使用测试集计算模型得分,并且利用学习曲线调整正则化系数C和最大迭代次数max_iter提高模型得分。

(6)制作评分卡。根据该公式的值计算出系数A和B的值,根据逻辑回归得到的截距lr.intercept_、各特征系数lr_coef_。用base_score = A - B*lr.intercept_公式计算该评分卡的基准值,用col_score = woeall["i_colName"] * (-B*lr.coef_[0][i])计算各特征的分数列表(每个箱子对应一个分数),其中woeall["i_colName"]是i特征的箱子边界列表和对应的WOE值列表。

 

4、为什么要使用逻辑回归制作评分卡?

评分卡制作其实就是将连续的特征离散化(分箱),且为每一个离散值赋一个分数(该箱的WOE值)。其中逻辑回归的截距用于计算评分卡基准值;逻辑回归系数表示各个特征在判别标签时的重要程度;各箱的woe值用于逻辑回归建模时代替特征矩阵X原始值带入计算。

 

posted @ 2019-01-06 11:02  simpleDi  阅读(4933)  评论(0编辑  收藏  举报