数据预处理

数据预处理

数据清洗
  1. 缺失值处理

    缺失值是一种典型的数据不完备情况

    处理方法

    1. 丢弃整个样本

      • 存在缺失值的样本在样本集的比例不大时有效
      • 可能导致过拟合
    2. 用特殊值表示缺失

    3. 使用属性统计进行填充

      数值型使用平均值,非数值型使用众数

    4. 已知属性的值去预测

    5. 分配所有可能的值

  2. 离群值检测

    离群值是指那些与大多数样本有很大距离的数据样本

数据转换
  1. 数字化

  2. 离散化

  3. 正规化

    • Min-max正规化

      将[lb,ub]映射到另一个范围[lb_new, lu_new],通常为[0, 1]或[-1, 1].假设一样本值为v,其归一化值 v ′ v' v

      v ′ = v − l b u b − l b ( u b n e w − l b n e w ) + l b n e w v' = \cfrac{v - lb}{ub-lb}(ub_{new}-lb_{new}) + lb_{new} v=ublbvlb(ubnewlbnew)+lbnew

    • Z-scrore正规化

      V 服从 N ( u , σ 2 ) V服从N(u,\sigma^2) V服从N(u,σ2)转化为标准正态分布

      v = v − u σ v= \cfrac{v - u}{\sigma} v=σvu

    • 十进制缩放正规化

      使每个属性中的每个值的绝对值都小于1, 即使最大的数的绝对值小于1

数据压缩

可能使信息损失

降维

样本数量不变,属性减少

  1. 降维转换

  2. 特征选择

    删除无关或相关属性,同时保持其他属性的相对独立属性不变

实例选择和采样

减少数据的样本量

posted @   chanxe  阅读(32)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 没有源码,如何修改代码逻辑?
· NetPad:一个.NET开源、跨平台的C#编辑器
· PowerShell开发游戏 · 打蜜蜂
· 凌晨三点救火实录:Java内存泄漏的七个神坑,你至少踩过三个!
历史上的今天:
2021-10-27 C语言之判断质数算法
点击右上角即可分享
微信分享提示