评分卡模型
评价指标定义
https://zhuanlan.zhihu.com/p/119282743
IV:在实际应用当中,IV值通常用来筛选变量,IV值越大,该变量的好坏区分能力越强。在评分卡建模的过程中,利用IV值筛选变量也是非常重要的一个环节。
KS值是一个衡量好坏客户分数距离的上限值,具体做法为将对于各个分数区间对应的好坏客户累计占比进行相减,取最大值。
pymysql.install_as_MySQLdb()
create_engine
pd.read_sql_table()
data = data.loc[data['con' ] ==Y] 只取值为Y的数据
data.isnull().sum() 计算空值
data.isnull().sum().reset_index(name = 'NUMS').sort_values('NUMS',ascending = False) 按照空值的多少进行降序排列
drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据
keep: {‘first’, ‘last’, False},默认为’first’
保留项。保留第一个(first)/最后一个(last)/不保留(False)重复的项
subset:默认所有列
指定的列。即需要删除哪些列中重复的项,列用’'说明,用,隔开
inplace : {‘True’,‘False’},默认为False
是否在原数据上修改。False表示另存一个副本
print(data['FININSTNAME'].value_counts().reset_index(name = 'NUMS').sort_values('NUMS',ascending = FALSE)
根据机构列的数量进行排序,查看数据情况
pd.crosstab 分组统计
https://blog.csdn.net/yasuowjh/article/details/105691229
分矩阵查看区分情况
data['diff_city']= (data['city'] ==data['dealercity']) data.replace({'diff_city':{True:'同城', False: '异城'}},inplace = True) Print(pd.crosstab(data['diff_city'],data['label']).sort_index().reset_index())
PSI-反映变量在验证样本和参照样本上分布的稳定性;
<0.1 稳定性还可
>0.25 需更新模型
介绍分层抽样的概念;通过调整权重,设定好坏样本的比例;训练集、测试集、时间外样本;