最近遇到了这个问题,这里想到了几种方法。
第一种,用均值、中位数、众数等数值补充。如果数据近似于normal distribution,可以用mean来代替,如果数据是skewed distribution的,则用median来替代。不过,这相当于是人为给数据增加了噪音,最终的效果是正向还是负向也不得而知。
第二种,空缺值用0、-99999,+99999之类特别的数值来表示,或是当做新的一维dummy code。如果这个维度的特征是categorical的,这样做也没有问题,相当于特征值缺失的样本在这个维度上的特征都属于新的一类;如果这个维度的特征是numerical的,那么就会有麻烦了。
第三种,直接抛弃这个维度的特征。这是属于土豪的做法,当样本和特征足够多的时候可以尝试这样做,但是样本和特征维度很少的时候,怎么玩得转。。。
第四种,可以根据不缺失的那部分特征值和其它维度特征的关系,推测出缺失的那部分特征值。这里我担心的一个问题,就是推测出来的那部分特征值,很可能和其余维度的特征高度相关,这样的话这个维度的特征贡献就不大了;若是它与其它维度的相关性较小,那预测出来的缺失值又不准确。这是一个trade-off吧。
【推荐】还在用 ECharts 开发大屏?试试这款永久免费的开源 BI 工具!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 软件产品开发中常见的10个问题及处理方法
· .NET 原生驾驭 AI 新基建实战系列:向量数据库的应用与畅想
· 从问题排查到源码分析:ActiveMQ消费端频繁日志刷屏的秘密
· 一次Java后端服务间歇性响应慢的问题排查记录
· dotnet 源代码生成器分析器入门
· 软件产品开发中常见的10个问题及处理方法
· 互联网不景气了那就玩玩嵌入式吧,用纯.NET开发并制作一个智能桌面机器人(四):结合BotSharp
· Vite CVE-2025-30208 安全漏洞
· MQ 如何保证数据一致性?
· 《HelloGitHub》第 108 期