用信息值进行特征选择(Information Value)

Posted by c cm on January 3, 2014

特征选择（feature selection）或者变量选择(variable selection)是在建模之前的重要一步。数据接口越来越多的今后，数据集的原始变量、衍生变量会越来越多，如何从中选取subset适用到模型之上在实际数据应用中十分重要。

信息值information value用来做特征选择最常用在计算信用评分卡时，是用来表示每一个变量对目标变量来说有多少“信息”的量。

对于一个分类变量性别，其计算过程如下：

其中，

$WoE = ln(pctlGood/pctlBad)$

$MIV = WoE * (pctlGood - pctlBad)$

$IV = \sum MIV$

例中性别变量的信息值为0.0147，表示性别对目标变量的预测能力非常弱。

一般说来，信息值0.02以下表示与目标变量相关性非常弱。0.02-0.1很弱；0.1-0.3一般；0.3-0.5强；0.5-1很强。

使用信息值最大的优点是简单快速。缺点包括：对于数值型变量需要分类预处理；无法确定iv值在多少以上便保留变量；无法识别相关性强的变量，可能同时保留造成冗余；无法识别变量间关系。

Reference:

posted @ 2016-11-29 16:05 stardsd 阅读(1758) 评论(0) 收藏举报

刷新页面返回顶部

赏月斋