TerryWanghaha

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

读完李航的《统计学习方法》和周志华的《机器学习》,对机器学习有了大概的了解。发现一个有用R语言实现的网页 http://www.datasciencelab.cn/clustering/kmeans ,以后有空可以看看。

开始读《The Elements of Statistical Learning》,这是一本从统计视角写的书,《PRML》更偏向贝叶斯、概率图模型。


 

We are drowning in information and starving for knowledge.                                           –Rutherford D. Roger

 

第一章:介绍

主要分为 supervised learning(包括regression和classification)和unsupervised learning(clustering等)。

一些例子:

  1. spam detection 已经有了几千份的邮件(已知是 email 还是 spam),有了这两类邮件中57个常用词或者拼写的相对频率。从而对新来的邮件进行分类。

                             问题:将spam误分为email的损失比 将email误分为spam的损失要小很多,如何解决?

  2. prostate cancer 回归问题  如何构建回归模型?

  3. Handwritten Digit Recognition 将手写的10个数字检测出来

                             问题:检测错误的损失很大,所以允许出现预测为“不知道”的情形,然后利用人工分类

  4. DNA表达微阵列   6830个基因,64个cancer tumor样本,看哪些比较相似以及基因与样本之间的关系。cluster

 

本书编排:

  Chp2. 对监督学习问题的综述

  Chp3/4. 回归/分类的线性模型

  Chp5. 介绍对单个predictor的样条、小波以及正则化/penalization 方法

  Chp6. kernel method和local regression。这两类方法是高维问题学习技巧的基石 

  Chp7. model assessment and selection 模型评估和选择,涵盖了bias和variance、过拟合等概念,以及选择验证等选择模型的方法

  Chp8. 讨论模型推断和平均,包括对极大似然、贝叶斯推断、bootstrap、EM算法、Gibbs sampling、bagging的综述

  Chp10. 关注boosting

Chp9-13. 描述监督学习的一系列结构化方法。Chp9和Chp11涵盖回归,Chp12和Chp13关注分类

  Chp14. 描述无监督学习的方法

  Chp15/Chp16. 分别为最近提出的技巧:random forests 和 ensemble learning

  Chp17. undirected graphical model

  Chp18. high-dimensional problems

每章最后会讨论 对数据挖掘应用很重要的计算方面的考虑,包括计算如何随观测数目和预测数目扩展。

   

  

                          

 

posted on 2017-04-14 17:38  TerryWanghaha  阅读(145)  评论(0编辑  收藏  举报