读完李航的《统计学习方法》和周志华的《机器学习》,对机器学习有了大概的了解。发现一个有用R语言实现的网页 http://www.datasciencelab.cn/clustering/kmeans ,以后有空可以看看。
开始读《The Elements of Statistical Learning》,这是一本从统计视角写的书,《PRML》更偏向贝叶斯、概率图模型。
We are drowning in information and starving for knowledge. –Rutherford D. Roger
第一章:介绍
主要分为 supervised learning(包括regression和classification)和unsupervised learning(clustering等)。
一些例子:
1. spam detection 已经有了几千份的邮件(已知是 email 还是 spam),有了这两类邮件中57个常用词或者拼写的相对频率。从而对新来的邮件进行分类。
问题:将spam误分为email的损失比 将email误分为spam的损失要小很多,如何解决?
2. prostate cancer 回归问题 如何构建回归模型?
3. Handwritten Digit Recognition 将手写的10个数字检测出来
问题:检测错误的损失很大,所以允许出现预测为“不知道”的情形,然后利用人工分类
4. DNA表达微阵列 6830个基因,64个cancer tumor样本,看哪些比较相似以及基因与样本之间的关系。cluster
本书编排:
Chp2. 对监督学习问题的综述
Chp3/4. 回归/分类的线性模型
Chp5. 介绍对单个predictor的样条、小波以及正则化/penalization 方法
Chp6. kernel method和local regression。这两类方法是高维问题学习技巧的基石
Chp7. model assessment and selection 模型评估和选择,涵盖了bias和variance、过拟合等概念,以及选择验证等选择模型的方法
Chp8. 讨论模型推断和平均,包括对极大似然、贝叶斯推断、bootstrap、EM算法、Gibbs sampling、bagging的综述
Chp10. 关注boosting
Chp9-13. 描述监督学习的一系列结构化方法。Chp9和Chp11涵盖回归,Chp12和Chp13关注分类
Chp14. 描述无监督学习的方法
Chp15/Chp16. 分别为最近提出的技巧:random forests 和 ensemble learning
Chp17. undirected graphical model
Chp18. high-dimensional problems
每章最后会讨论 对数据挖掘应用很重要的计算方面的考虑,包括计算如何随观测数目和预测数目扩展。