数据预处理
数据预处理
数据清洗
-
缺失值处理
缺失值是一种典型的数据不完备情况
处理方法
-
丢弃整个样本
- 存在缺失值的样本在样本集的比例不大时有效
- 可能导致过拟合
-
用特殊值表示缺失
-
使用属性统计进行填充
数值型使用平均值,非数值型使用众数
-
已知属性的值去预测
-
分配所有可能的值
-
-
离群值检测
离群值是指那些与大多数样本有很大距离的数据样本
数据转换
-
数字化
-
离散化
-
正规化
-
Min-max正规化
将[lb,ub]映射到另一个范围[lb_new, lu_new],通常为[0, 1]或[-1, 1].假设一样本值为v,其归一化值 v ′ v' v′为
v ′ = v − l b u b − l b ( u b n e w − l b n e w ) + l b n e w v' = \cfrac{v - lb}{ub-lb}(ub_{new}-lb_{new}) + lb_{new} v′=ub−lbv−lb(ubnew−lbnew)+lbnew
-
Z-scrore正规化
设 V 服从 N ( u , σ 2 ) V服从N(u,\sigma^2) V服从N(u,σ2)转化为标准正态分布
v = v − u σ v= \cfrac{v - u}{\sigma} v=σv−u
-
十进制缩放正规化
使每个属性中的每个值的绝对值都小于1, 即使最大的数的绝对值小于1
-
数据压缩
可能使信息损失
降维
样本数量不变,属性减少
-
降维转换
-
特征选择
删除无关或相关属性,同时保持其他属性的相对独立属性不变
实例选择和采样
减少数据的样本量
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 没有源码,如何修改代码逻辑?
· NetPad:一个.NET开源、跨平台的C#编辑器
· PowerShell开发游戏 · 打蜜蜂
· 凌晨三点救火实录:Java内存泄漏的七个神坑,你至少踩过三个!
2021-10-27 C语言之判断质数算法