数据挖掘-数据清理-噪声数据

数据清理-噪声数据

数据清理例程试图填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。

噪声数据

噪声(noise)是被测量的变量的随机误差或方差。光滑数据,去除噪声方法如下。

1.分箱(binning)

分箱方法通过考察数据的近邻(即周围的值)来光滑有序数据值。这些有序的值被分不到一些桶或箱中。由于分箱方法考察近邻的值,因此它进行局部光滑。
对于用箱均值光滑,箱中每一个值都被替换为箱中的均值。
用箱中位数光滑,此时,箱中的每一个值都被替换为该箱的中位数。
对于用箱边界光滑,给定箱中的最大和最小值同样被视为箱边界,而箱中的每一个值都被替换为最近的边界值。
一般而言,宽度越大,光滑效果越明显。箱也可以是等宽的,其中每个箱值的区间范围是常量。分箱也可以作为一种离散化技术使用。

2.回归(regression)

也可以用一个函数拟合数据来光滑数据,这种技术称为回归。线性回归涉及找出拟合两个属性(或变量)的最佳直线,使得一个属性可以用来预测另一个。多元线性回归是线性回归的扩充,其中涉及的属性多于两个,并且数据拟合到一个多维曲面。

3.离群点分析(outlier analysis)

可以通过如聚类来检测离群点。聚类将类似的值组织成群或簇。直观地,落在簇集合之外的值被视为离群点。

 

posted on   嘣嘣嚓  阅读(1278)  评论(0编辑  收藏  举报

编辑推荐:
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
阅读排行:
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 记一次.NET内存居高不下排查解决与启示

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示