Tinghua Data Mining 2

数据预处理

https://www.bilibili.com/video/av23933161/?p=11

http://www.xuetangx.com/courses/course-v1:TsinghuaX+80240372X+2018_T1/about

Outline

最后2个:特征选择 PC 特征提取 LDA

NA:不适用 比如学生 每个月工资

Outliers离群点

离群点对最小二乘影响很大

Anomly 异常点

离群点不一定就是异常的 姚明不一定有巨人症 只是outlier

数据描述与可视化

前面在0 1 之间
高斯分布 偏离了均值多少 可能大于1

A代表身高 B代表体重

文献引用

社交关系可视化

posted @ 2018-12-03 22:34  当归远志  阅读(169)  评论(0编辑  收藏  举报