1.(IV 信息量 )在用逻辑回归模型方法构建分类模型时候,需要对自变量进行筛选
使用信息量 IV , 来衡量自变量的预测能力。 信息量越大 预测能力越强,就越应该放入 模型中。
2.(WOE值)是 IV值的基础。 即 证据权重 Weight of Evidence.
WOE 是对原始自变量的一种编码形式。而要对一个变量进行WOE编码 ,先要对变量进行分组处理(离散化、分箱等)。
WOEi =ln(pyi / pni)
PYi 表示组中 响应客户占所有响应客户的比例,PNi 表示组中未响应客户占所有未响应客户的比例。
IVi = (pyi - pni) * WOEi
IV值如果小于 0.02 对预测几乎无帮助; IV 值 小于0.1 大于或等于 0.02 具有一定帮助。大于0.1就对预测有较大帮助了。
3. 评分
知识点补充:
最大信息熵增益_信息、信息熵、条件熵、互信息,信息增益、信息增益比、基尼系数、相对熵、交叉熵,KL散度,woe,IV值,混淆矩阵(TPR,FPR,F1),ROC,AUC,ks曲线,ks值