评分卡模型

评价指标定义

https://zhuanlan.zhihu.com/p/119282743

IV:在实际应用当中,IV值通常用来筛选变量,IV值越大,该变量的好坏区分能力越强。在评分卡建模的过程中,利用IV值筛选变量也是非常重要的一个环节。

KS值是一个衡量好坏客户分数距离的上限值,具体做法为将对于各个分数区间对应的好坏客户累计占比进行相减,取最大值。

 

pymysql.install_as_MySQLdb()

create_engine

pd.read_sql_table()

data = data.loc[data['con' ] ==Y]    只取值为Y的数据

data.isnull().sum()                          计算空值

data.isnull().sum().reset_index(name = 'NUMS').sort_values('NUMS',ascending = False)            按照空值的多少进行降序排列

 

drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据

keep: {‘first’, ‘last’, False},默认为’first’

保留项。保留第一个(first)/最后一个(last)/不保留(False)重复的项
subset:默认所有列
指定的列。即需要删除哪些列中重复的项,列用’'说明,用,隔开
inplace : {‘True’,‘False’},默认为False
是否在原数据上修改。False表示另存一个副本

print(data['FININSTNAME'].value_counts().reset_index(name = 'NUMS').sort_values('NUMS',ascending = FALSE)

  根据机构列的数量进行排序,查看数据情况

 

pd.crosstab      分组统计

https://blog.csdn.net/yasuowjh/article/details/105691229

 

分矩阵查看区分情况

data['diff_city']= (data['city'] ==data['dealercity'])
data.replace({'diff_city':{True:'同城', False: '异城'}},inplace = True)
Print(pd.crosstab(data['diff_city'],data['label']).sort_index().reset_index())

 

PSI

PSI-反映变量在验证样本和参照样本上分布的稳定性;

<0.1  稳定性还可

>0.25 需更新模型

 

时间外样本

介绍分层抽样的概念;通过调整权重,设定好坏样本的比例;训练集、测试集、时间外样本;

posted on 2020-10-12 14:54  椰汁黑糯米  阅读(196)  评论(0编辑  收藏  举报

导航