摘要: 变量的KS值 KS(Kolmogorov-Smirnov)用于模型风险区分能力进行评估,指标衡量的是好坏样本累计部分之间的差距 。KS值越大,表示该变量越能将正,负客户的区分程度越大。通常来说,KS>0.2即表示特征有较好的准确率。强调一下,这里的KS值是变量的KS值,而不是模型的KS值。(后面的模 阅读全文
posted @ 2019-03-17 23:20 wqbin 阅读(8302) 评论(0) 推荐(0) 编辑
摘要: 1.IV的用途 IV的全称是Information Value,中文意思是信息价值,或者信息量。 我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自 阅读全文
posted @ 2019-03-17 16:45 wqbin 阅读(13336) 评论(0) 推荐(4) 编辑
摘要: 1.定义 分箱就是将连续变量离散化,将多状态的离散变量合并成少状态。 2.分箱的用处 离散特征的增加和减少都很容易,易于模型的快速迭代; 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展; 列表内容离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化 阅读全文
posted @ 2019-03-17 16:24 wqbin 阅读(13122) 评论(1) 推荐(1) 编辑