使用逻辑回归制作评分卡

1、什么是评分卡？

在银行借贷场景中，评分卡是一种以分数形式来衡量一个客户的信用风险大小的手段，一般来说，评分卡打出的分数越高，客户的信用越好，风险越小。

2、评分卡怎么使用？

对于需要借贷的个人或者公司，在借贷时需要填写一张表格，表格内容包括年龄，收入，家庭人口数量等等。评分卡将每个特征划分为几个区间，每个区间有一个分数。根据客户所填信息对照评分卡，为客户所填的每一个特征赋一个分数，最后相加计算这个用户的总得分。依据总得分评估他的信用程度。

3、怎么使用逻辑回归制作评分卡？

制作评分卡需要大量客户所填的信息（特征矩阵X），以及该客户是否违约的信息（标签Y）。

（1）对特征矩阵X进行数据预处理。包括去除重复值，填补缺失值（仅有极少数样本缺失该特征可考虑直接删除该特征，可使用均值填补家庭人数，随机森林填补收入等），处理异常值，处理样本不均衡问题（使用过采样和欠采样的方法），但是我们一般不对数据进行标准化处理（这是因为我们给出的评分卡是给业务人员看的，而客户所填信息天生就是量纲不统一的）。

（2）找出每个特征最佳分箱数和箱子边界。最佳分箱数就是使得该特征的IV值尽量在最佳IV值区间的箱子个数（尽量提高每个特征的重要性），并且使得该特征的箱内相似，箱间差异大。因此步骤是这样的：首先确定一个较大的分箱数，进行等频分箱，计算各箱WOE值和特征的IV值，然后依据卡方检验值合并相似箱子，再次计算各箱WOE值以及该特征IV值，直到箱子数量变为一个较小值。画出分箱数-IV值曲线，找出最佳分箱数和各箱边界。

（3）对各个特征依据最佳分箱边界进行分箱。分箱后得到特征的各箱边界以及WOE值。

（4）处理训练集和测试集的特征矩阵X。将特征矩阵中的值全部替换为对应箱子的WOE值。

（5）使用训练集进行建模，使用测试集计算模型得分，并且利用学习曲线调整正则化系数C和最大迭代次数max_iter提高模型得分。

（6）制作评分卡。根据该公式的值计算出系数A和B的值，根据逻辑回归得到的截距lr.intercept_、各特征系数lr_coef_。用base_score = A - B*lr.intercept_公式计算该评分卡的基准值，用col_score = woeall["i_colName"] * (-B*lr.coef_[0][i])计算各特征的分数列表（每个箱子对应一个分数），其中woeall["i_colName"]是i特征的箱子边界列表和对应的WOE值列表。

4、为什么要使用逻辑回归制作评分卡？

评分卡制作其实就是将连续的特征离散化（分箱），且为每一个离散值赋一个分数（该箱的WOE值）。其中逻辑回归的截距用于计算评分卡基准值；逻辑回归系数表示各个特征在判别标签时的重要程度；各箱的woe值用于逻辑回归建模时代替特征矩阵X原始值带入计算。

posted @ 2019-01-06 11:02 simpleDi 阅读(5133) 评论(0) 收藏举报

刷新页面返回顶部

simpleDi

使用逻辑回归制作评分卡

公告