数据挖掘概念与技术(韩家伟)阅读笔记2
1.数据清理:
通过填写缺失的值,光滑噪声数据,识别或删除离群点并解决不一致性来清理数据。
2.数据集成
集成多个数据库,数据立方体或文件。
由于不同的数据库同一概念的属性可能有不同的名字,或者属性值命名不一致等都会造成不一致性和冗余。所以在准备数据时应当避免数据冗余,还不仅仅是简单的组合在一起。
3.数据变换
规范化(对某属性按比例映射到一个特定的区间)和聚集(求和等,比如获得年收入)。
4.数据规约
简化数据集。方法:数据聚集,属性子集选择,维度规约,数值规约。
5.描述性数据汇总
目的:获得数据总体印象,凸显那些数据值应当被视为噪声或离群点。
数据中心趋势:均值(对极端值非常敏感),中位数(适用于对于倾斜,非对称 的数据集),众数,中列数(max和min的均值)。
对于分对称的单峰频率曲线有:
mean-mode =3*(mean-median);均值-众数=3*(均值-中位数)。
数据离中趋势:四分位数,四分位数极差,方差。
a.第一个是四分位数Q1是第25个百分位数(第k个百分位数Xi即百分之k的数据项位于或低于xi)。
b.中间四分位数极差IQR=Q3-Q1;
c.五数概括:中位数,Q1,Q3,最大观测值,最小观测值。
表示方法:盒图。
单独会出的的观测值是超过Q3,1.5*IQR或者小于Q1,1.5倍IQR的那些值。
d.方差和标准差
他们是关于均值的度量,即只有选择均值作为中心度量时才使用。
e.图形显示:
直方图,分位数图
分位数-分位数图(q-q图):即对于分位数a,分别有x,y两个数据,则坐标(x,y)作为坐标中的一个点。观察单变量的有效方法(在不同情况下的不同取值)。
散布图:观察双变量的有效方法。观察两个变量之间是否相关(正相关,负相关等)。
loss曲线:在散布图中添加一条光滑的曲线,来拟合数据的分布。参数:a,光滑参数,典型取值1/4--1的正数,越大越光滑,但可能出现拟合不足(局部的抖动无法表示),太小的话,过分拟合可能造成局部过分的抖动造成实际数据不支持。b,可以是1或2(二次拟合存在局部最大最小值)。