写一下自己对《统计学习方法》的一点认识

一提到机器学习,就不得不提李航的这本《统计学习方法》,回家这几日,把这本书的前九章看完了,因为后面两章HMM和CRF在之前就已经看过了,简单写一下自己的一点新认识。

  这本书基本上是在围绕有监督来进行的,所谓有监督与无监督的区别:数学角度上来分析是是否知道P(Y|X),有监督是知道部分X对应的Y值,来构建分类器,其中又分成了这么三大部分:

  1.如果X是连续的,Y也是连续的,为回归问题;

  2.如果X是连续的/离散的,Y是离散的,为分类问题;

  3.如果输入X与输出Y均为变量序列,则为标注问题(例如NLP中的CRF  HMM等都是此类);

 

对于模型评定,我们通常要考虑是否过拟合/欠拟合的问题(剃刀原理): simple is good

  解决过拟合问题:正则化  --简单理解就是,如果我们使用的模型很简单,结果还不错,那对应的“惩罚”就很少;

                                                                       如果我们使用的模型很复杂,结果不错,那对应的惩罚就很多!

                            正则化的定义:在原来损失函数的基础上增加一个  X*【W】 其中X为系数,会随着模型的复杂度来变化,防止过拟合。

 

对于有监督的常用算法:

 感知机、决策树、SVM、KNN、Logistics回归、朴素贝叶斯、HMM、CRF

对于无监督的常用算法:Kmeans   DBScan (后续了解)

接下来,分别归纳一下对应监督学习方法我认为需要掌握的内容:

1.感知机

2.决策树

3.SVM

4.KNN

5.Logistics

6.朴素贝叶斯

7.HMM

8.CRF  

posted @ 2018-08-17 23:45  二师兄不讲英文  阅读(292)  评论(0编辑  收藏  举报