数据挖掘机器学习路径
1. 基础部分
http://www.cnblogs.com/charlotte77/p/5606926.html 这个系列非常基础可重点看看
1.1 数据清洗 http://www.cnblogs.com/charlotte77/p/5606926.html
标准差:中文环境也叫均方差,均方差和方差都是反应一批数据和平均数的偏离程度,计算公式分别为:
https://baike.baidu.com/item/%E6%96%B9%E5%B7%AE/3108412?fr=aladdin
https://baike.baidu.com/item/%E6%A0%87%E5%87%86%E5%B7%AE/1415772?fr=aladdin
协方差和相关系数: https://www.zhihu.com/question/20852004 这篇文章讲的非常好
协方差:表示2个变量的变化程度,方差:表示的一个变量相对于均值的变化程度
相关系数:在协方差的基础下剔除了标准差的影响,表示的每单元变化幅度的影响
1.2 数据转化 http://www.cnblogs.com/charlotte77/p/5622325.html 主要提纲
一.标准化的原因
但PCA是无监督的,正如Andrew所说:“it does not consider the values of our results y”。所以它虽然能解决过拟合问题,但又会带来欠拟合问题。拿人脸识别来说,eigenface虽然能训练出识别能力尚可的分类器,但因为分类信息并不一定存在于前几个主成分上,所以用前几个主成分来做分类的话,会丢失后面变化细微的主成分上存在的大量分类信息。正因为如此,之后又出现了fisherface等有监督降维工作,识别能力也因此提高了很多。
深度学习也是这样,pre-training阶段很多训练都是无监督的,其实和PCA异曲同工,但之后一定要有进一步的fine-tuning,把无监督提取出来的特征transfer到我们的目标任务上,这样得到的特征才真正work。
所以说,类似于PCA和auto-encoder这样的无监督方法,提取的特征不会太差、但也不会太好,它最大的作用,是总结出一些关于X的较高层次的抽象知识、为之后的有监督训练提供一个比原始特征空间更好的起点。实际上,无监督最具优势之处,就在于它的通用性:不管y是什么,只要有X就行,之后可以在各种各样的y上进一步训练。有证据显示,人类在婴儿时期也是先有一个无监督学习阶段,然后才是各种有监督学习。3.
本质还是因为是unsupervised learning,不涉及Y.
pca就是对design matrix / data matrix做singular value decomposition,做完后得到的是低维度的原feature的线性组合。因为不涉及response Y,因此无法根据feature和response的关系来做变量选择。它可以拿来做visualization看feature在哪个方向有较大的variation,但是没法合理的做variable selection。