《The Elements of Statistical Learning》 chp1 Introduction

读完李航的《统计学习方法》和周志华的《机器学习》，对机器学习有了大概的了解。发现一个有用R语言实现的网页 http://www.datasciencelab.cn/clustering/kmeans ，以后有空可以看看。

开始读《The Elements of Statistical Learning》，这是一本从统计视角写的书，《PRML》更偏向贝叶斯、概率图模型。

We are drowning in information and starving for knowledge. –Rutherford D. Roger

第一章：介绍

主要分为 supervised learning（包括regression和classification）和unsupervised learning（clustering等）。

一些例子：

1. spam detection 已经有了几千份的邮件（已知是 email 还是 spam），有了这两类邮件中57个常用词或者拼写的相对频率。从而对新来的邮件进行分类。

问题：将spam误分为email的损失比将email误分为spam的损失要小很多，如何解决？

2. prostate cancer 回归问题如何构建回归模型？

3. Handwritten Digit Recognition 将手写的10个数字检测出来

问题：检测错误的损失很大，所以允许出现预测为“不知道”的情形，然后利用人工分类

4. DNA表达微阵列 6830个基因，64个cancer tumor样本，看哪些比较相似以及基因与样本之间的关系。cluster

本书编排：

Chp2. 对监督学习问题的综述

Chp3/4. 回归/分类的线性模型

Chp5. 介绍对单个predictor的样条、小波以及正则化/penalization 方法

Chp6. kernel method和local regression。这两类方法是高维问题学习技巧的基石

Chp7. model assessment and selection 模型评估和选择，涵盖了bias和variance、过拟合等概念，以及选择验证等选择模型的方法

Chp8. 讨论模型推断和平均，包括对极大似然、贝叶斯推断、bootstrap、EM算法、Gibbs sampling、bagging的综述

Chp10. 关注boosting

Chp9-13. 描述监督学习的一系列结构化方法。Chp9和Chp11涵盖回归，Chp12和Chp13关注分类

Chp14. 描述无监督学习的方法

Chp15/Chp16. 分别为最近提出的技巧：random forests 和 ensemble learning

Chp17. undirected graphical model

Chp18. high-dimensional problems

每章最后会讨论对数据挖掘应用很重要的计算方面的考虑，包括计算如何随观测数目和预测数目扩展。

posted on 2017-04-14 17:38 TerryWanghaha 阅读(190) 评论(0) 收藏举报

刷新页面返回顶部

TerryWanghaha