写一下自己对《统计学习方法》的一点认识

一提到机器学习，就不得不提李航的这本《统计学习方法》，回家这几日，把这本书的前九章看完了，因为后面两章HMM和CRF在之前就已经看过了，简单写一下自己的一点新认识。

这本书基本上是在围绕有监督来进行的，所谓有监督与无监督的区别：数学角度上来分析是是否知道P（Y|X），有监督是知道部分X对应的Y值，来构建分类器，其中又分成了这么三大部分：

1.如果X是连续的，Y也是连续的，为回归问题；

2.如果X是连续的/离散的，Y是离散的，为分类问题；

3.如果输入X与输出Y均为变量序列，则为标注问题(例如NLP中的CRF HMM等都是此类)；

对于模型评定，我们通常要考虑是否过拟合/欠拟合的问题（剃刀原理）： simple is good

解决过拟合问题：正则化 --简单理解就是，如果我们使用的模型很简单，结果还不错，那对应的“惩罚”就很少；

如果我们使用的模型很复杂，结果不错，那对应的惩罚就很多！

正则化的定义：在原来损失函数的基础上增加一个 X*【W】其中X为系数，会随着模型的复杂度来变化，防止过拟合。

对于有监督的常用算法：

感知机、决策树、SVM、KNN、Logistics回归、朴素贝叶斯、HMM、CRF

对于无监督的常用算法：Kmeans DBScan （后续了解）

接下来，分别归纳一下对应监督学习方法我认为需要掌握的内容：

1.感知机

2.决策树

3.SVM

4.KNN

5.Logistics

6.朴素贝叶斯

7.HMM

8.CRF

posted @ 2018-08-17 23:45 二师兄不讲英文阅读(292) 评论(0) 编辑收藏举报

刷新页面返回顶部

二师兄不讲英文