特征选择
男女身高
男女抽烟 先验分布
熵 衡量系统的不确定性
属性的价值 降低了不确定性 降低的幅度越高越好
主成分分析
旋转是的数据间的correlation消失掉
Q是正交阵
七长八短,长宽相关性不好,信息丢失了很多。
线性判别分析
两种颜色投影重叠,分类问题就很尴尬,没法处理 PCA不考虑Label 是无监督的
有标签的数据用LDA、
降维的时候保留类的区分信息
可分性
迄今为止,都是二分类问题