Tinghua Data Mining 2
数据预处理
https://www.bilibili.com/video/av23933161/?p=11
http://www.xuetangx.com/courses/course-v1:TsinghuaX+80240372X+2018_T1/about
Outline
最后2个:特征选择 PC 特征提取 LDA
NA:不适用 比如学生 每个月工资
Outliers离群点
离群点对最小二乘影响很大
Anomly 异常点
离群点不一定就是异常的 姚明不一定有巨人症 只是outlier
数据描述与可视化
前面在0 1 之间
高斯分布 偏离了均值多少 可能大于1
A代表身高 B代表体重
文献引用
社交关系可视化