评分卡模型

评价指标定义

https://zhuanlan.zhihu.com/p/119282743

IV：在实际应用当中，IV值通常用来筛选变量，IV值越大，该变量的好坏区分能力越强。在评分卡建模的过程中，利用IV值筛选变量也是非常重要的一个环节。

KS值是一个衡量好坏客户分数距离的上限值，具体做法为将对于各个分数区间对应的好坏客户累计占比进行相减，取最大值。

pymysql.install_as_MySQLdb()

create_engine

pd.read_sql_table()

data = data.loc[data['con' ] ==Y] 只取值为Y的数据

data.isnull().sum() 计算空值

data.isnull().sum().reset_index(name = 'NUMS').sort_values('NUMS',ascending = False) 按照空值的多少进行降序排列

drop_duplicate方法是对DataFrame格式的数据，去除特定列下面的重复行。返回DataFrame格式的数据

keep: {‘first’, ‘last’, False},默认为’first’

保留项。保留第一个（first）/最后一个（last）/不保留（False）重复的项
subset：默认所有列
指定的列。即需要删除哪些列中重复的项，列用’'说明，用,隔开
inplace : {‘True’，‘False’},默认为False
是否在原数据上修改。False表示另存一个副本

print(data['FININSTNAME'].value_counts().reset_index(name = 'NUMS').sort_values('NUMS',ascending = FALSE)

　　根据机构列的数量进行排序，查看数据情况

pd.crosstab 分组统计

https://blog.csdn.net/yasuowjh/article/details/105691229

分矩阵查看区分情况

data['diff_city']= (data['city'] ==data['dealercity'])
data.replace({'diff_city':{True:'同城', False: '异城'}},inplace = True)
Print(pd.crosstab(data['diff_city'],data['label']).sort_index().reset_index())

PSI

PSI-反映变量在验证样本和参照样本上分布的稳定性；

<0.1 稳定性还可

>0.25 需更新模型

时间外样本

介绍分层抽样的概念；通过调整权重，设定好坏样本的比例；训练集、测试集、时间外样本；

posted on 2020-10-12 14:54 椰汁黑糯米阅读(196) 评论(0) 编辑收藏举报

刷新页面返回顶部

评分卡模型

导航

公告