用信息值进行特征选择(Information Value)
特征选择(feature selection)或者变量选择(variable selection)是在建模之前的重要一步。数据接口越来越多的今后,数据集的原始变量、衍生变量会越来越多,如何从中选取subset适用到模型之上在实际数据应用中十分重要。
信息值information value用来做特征选择最常用在计算信用评分卡时,是用来表示每一个变量对目标变量来说有多少“信息”的量。
对于一个分类变量性别,其计算过程如下:
Group | Good | Bad | pctlGood | pctlBad | WoE | MIV |
女 | 325 | 19 | 36.89% | 31.15% | 0.1692 | 0.0097 |
男 | 556 | 42 | 63.11% | 68.85% | -0.0871 | 0.0050 |
IV | 0.0147 |
其中,
例中性别变量的信息值为0.0147,表示性别对目标变量的预测能力非常弱。
一般说来,信息值0.02以下表示与目标变量相关性非常弱。0.02-0.1很弱;0.1-0.3一般;0.3-0.5强;0.5-1很强。
使用信息值最大的优点是简单快速。缺点包括:对于数值型变量需要分类预处理;无法确定iv值在多少以上便保留变量;无法识别相关性强的变量,可能同时保留造成冗余;无法识别变量间关系。
Reference:
如果这篇文章帮助到了你,你可以请作者喝一杯咖啡
![](https://img2020.cnblogs.com/blog/938105/202010/938105-20201013171833350-276632012.png)
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开发中对象命名的一点思考
· .NET Core内存结构体系(Windows环境)底层原理浅谈
· C# 深度学习:对抗生成网络(GAN)训练头像生成模型
· .NET 适配 HarmonyOS 进展
· .NET 进程 stackoverflow异常后,还可以接收 TCP 连接请求吗?
· 本地部署 DeepSeek:小白也能轻松搞定!
· 如何给本地部署的DeepSeek投喂数据,让他更懂你
· 在缓慢中沉淀,在挑战中重生!2024个人总结!
· 大人,时代变了! 赶快把自有业务的本地AI“模型”训练起来!
· 从 Windows Forms 到微服务的经验教训