统计学习方法第一章

一、统计学习三要素

1.模型：要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。例如：假设决策函数是输入变量的线性函数，那么模型的假设空间就是所有这些线性函数构成的函数集合，此时为无穷个。
这也就是为什么说：条件概率分布\(P(y|x)\)和函数\(y=f(x)\)可以相互转换。
条件概率分布最大化后得到函数：决策准则是最大可能性时，决策函数自然取条件概率的最大值。
函数归一化后得到条件概率分布：决策函数归一化之后满足概率公理，当然可以看作条件概率。决策函数的定义域通常是有限点集。
2. 策略：统计学习的目的是从假设空间中选取最优模型，需要损失函数和风险函数。
3. 算法：用什么样的算法求解最优模型。比如梯度下降

二、正则化的作用是选择经验风险与模型复杂度同时较小的模型

从贝叶斯估计角度看，正则化项对应于模型的先验概率。假设复杂的模型有较小的先验概率。简单的模型有较大的先验概率。

三、生成模型和判别模型

生成模型：由数据学习联合概率分布\(P(X,Y)\)，然后求出条件概率分布\(P(Y|X)\)作为预测的模型

\[P(Y|X)=\frac{P(X,Y)}{P(X)} \]

典型的生成模型：朴素贝叶斯，HMM.
判别模型：由数据直接学习决策函数\(f(X)\)或者条件概率分布\(P(Y|X)\)作为预测的模型。
典型的判别模型：k近邻，感知机，决策树，LR，SVM，条件随机场。

四、第一章习题

1.2通过经验风险最小化推导极大似然估计，证明模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化等价于极大似然估计。
经验风险最小化即求解下列最优化问题：

当模型是条件概率分布，损失函数是对数损失函数时，上述问题等价于：

考虑到N是常数，因此，上述上述问题又等价于：

这就是极大似然估计。

posted @ 2020-09-11 17:18 木叶流云阅读(630) 评论(0) 收藏举报

刷新页面返回顶部

木叶流云

统计学习方法第一章

一、统计学习三要素

二、正则化的作用是选择经验风险与模型复杂度同时较小的模型

三、生成模型和判别模型

四、第一章习题

公告