PRML-第三章节 思维导图 关系梳理

本章节中的一些概念跳来跳去,比较复杂,一些概念如 条件概率,最大似然,先验分布,后验分布,预测分布,证据函数,这些关系都梳理到了思维导图中,

3.线性回归模型

基函数模型

基函数种类

  • 高斯基函数
  • 多项式基函数
  • 傅里叶基函数
  • sigmod基函数

回归函数最大似然求解析解

  • 条件分布:假设:噪声是正态分布,精度是超参数 3.8

\[p(t|x,w,\beta) = \mathcal{N}(t|y(x,w), \beta^{-1}) \]

  • 回归函数=条件均值 3.9

\[y(x,w)=\mathbb{E}[t|x]=w^T\phi(x) \]

  • 对噪声进行似然函数,求解

\[w_{ML} = (\Phi^T\Phi)^{-1}\Phi^T\textbf{t}, \frac{1}{\beta_{ML}} = \frac{1}{N}\sum\limits_{n=1}^N\{t_n - w_{ML}^T\phi(x_n)\}^2 \]

- 得到误差函数 3.12 3.26

\[E_D(w) = \frac{1}{2}\sum\limits_{n=1}^N\{t_n - w^T\phi(x_n)\}^2 \]

正则化

  • 思想:添加正则化项控制过拟合

\[E_D(w) + \lambda E_W(w) \]

- E_w(w) 3.25

\[E_W(w) = \frac{1}{2}w^Tw \]

- E_D(w) 3.26

\[E_D(w) = \frac{1}{2}\sum\limits_{n=1}^N\{t_n-w^T\phi(x_n)\}^2 \]

  • L2解析解

\[w = (\lambda I + \Phi^T\Phi)^{-1}\Phi^Tt \]

  • 一般形式

\[\frac{1}{2}\sum\limits_{n=1}^N\{t_n - w^T\phi(x_n)\}^2 + \frac{\lambda}{2}\sum\limits_{j=1}^M|w_j|^q \]

  • 正则化等价于带约束的误差函数

\[E_D(w) = \frac{1}{2}\sum\limits_{n=1}^N\{t_n - w^T\phi(x_n)\}^2,\sum\limits_{j=1}^M|w_j|^q \leq \eta \]

贝叶斯线性回归

学习

  • 先验

    • 一般高斯先验 3.48

\[p(w) = \mathcal{N}(w|m_0,S_0) \]

- **0均值先验 3.52**

\[p(w|\alpha) = \mathcal{N}(w|0,\alpha^{-1}I) \]

- 其他形式的先验 3.56

\[p(\boldsymbol{w} \mid \alpha)=\left[\frac{q}{2}\left(\frac{\alpha}{2}\right)^{\frac{1}{q}} \frac{1}{\Gamma\left(\frac{1}{q}\right)}\right]^{M} \exp \left(-\frac{\alpha}{2} \sum_{j=0}^{M-1}\left|w_{j}\right|^{q}\right) \]

  • 后验

    • 一般高斯后验 3.49-3.51

\[\begin{eqnarray} p(w|t) &=& \mathcal{N}(w|m_N,S_N) \tag{3.49}\\ m_N &=& S_N(S_0^{-1}m_0 + \beta\Phi^Tt) \tag{3.50} \\ S_N^{-1} &=& S_0^{-1} + \beta\Phi^T\Phi \tag{3.51} \end{eqnarray} \]

- **0均值后验 3.49 3.53-3.54**

\[\begin{eqnarray} p(w|t) &=& \mathcal{N}(w|m_N,S_N) \tag{3.49}\\ m_N &=& \beta S_N\Phi^Tt \tag{3.53} \\ S_N^{-1} &=& \alpha I + \beta\Phi^T\Phi \tag{3.54} \end{eqnarray} \]

  • 后验分布关于w最大化 3.55

\[\ln p(w|t) = -\frac{\beta}{2}\sum\limits_{n=1}^N\{t_n - w^T\phi(x_n)\}^2 - \frac{\alpha}{2}w^Tw + const \]

- 正则项

\[\lambda = \alpha/\beta \]

  • 顺序学习 图3.7

    • 前一个的后验当做后一个的先验

      • 在线学习框架
    • python代码实现顺序学习

预测

  • 预测分布=条件分布(3.8),后验分布卷积(3.49)=对w做积分 3.57 3.58

\[p(t|T, \alpha, \beta) = \int p(t|w,\beta)p(w|T,\alpha,\beta)dw= \mathcal{N}(t|m_N^T\phi(x),\sigma_N^2(x)), \sigma_N^2(x) = \frac{1}{\beta} + \phi(x)^TS_N\phi(x) \]

  • 观测越多,后验概率收窄,习题3.11

判别式模型

  • 等价核

    • 预测均值E(y_test)与训练集目标值y_train之间的线性关系3.60 3.61

\[y(x,m_N)=\sum\limits_{n=1}^N\beta\phi(x)^TS_N\phi(x_n)t_n= \sum\limits_{n=1}^Nk(x,x_n)t_n \]

- 高斯过程-6.4章节再展开

证据近似

预测分布

通过预测分布引出边缘似然函数/证据函数的意义

  • 3.74 基本预测分布公式

\[p(t|\textbf{t})=\int\int\int p(t|w,\beta)p(w|\textbf{t},\alpha,\beta)p(\alpha,\beta|\textbf{t})dwd\alpha d\beta \]

  • 3.75 如果后验分布附近有尖峰(即alpha,beta是固定值),并且省略对变量x的依赖关系

\[p(t|\textbf{t}) \simeq p(t|\textbf{t},\hat{\alpha},\hat{\beta}) = \int p(t|w,\hat{\beta})p(w|\textbf{t}, \hat{\alpha},\hat{\beta})dw \]

- 3.8

\[p(t|x,w,\beta) = \mathcal{N}(t|y(x,w), \beta^{-1}) \]

- 3.49

\[p(w|t) = \mathcal{N}(w|m_N,S_N) \]

- 引申出如何求将alpha,beta固定?

利用最大化后验

\[\alpha=\hat \alpha,\beta =\hat \beta \]

	- 后验的贝叶斯定理

\[p(\alpha,\beta|\textbf{t}) \propto p(\textbf{t}|\alpha,\beta)p(\alpha,\beta) \]

		- 假设先验较平

\[p(\alpha,\beta) \]

		- 最大化后验等价于最大化边缘似然函数(也称为证据函数)-这就是证据框架重点

\[p(\textbf{t}|\alpha,\beta) \]

经验贝叶斯模型

1.对w做积分得到边缘似然函数-3.86
2.最大化边缘似然函数确定超参数的值

  • 边缘似然函数/证据函数
    概念参看公式3.68

\[p(\textbf{t}|\alpha,\beta) \]

- 定义

	- 证据函数的定理:对w积分 3.77

\[p(\textbf{t}|\alpha,\beta) = \int p(\textbf{t}|w,\beta)p(w|\alpha)dw \]

- 计算方法

	- 方法1 使用2.115 对y的边缘分布(已知p(x),p(y|x)),未展开说明

\[p(y) = \mathcal{N}(y|A\mu + b,L^{-1} + A\Lambda^{-1}A^T) \]

	- 方法2 使用3.11 3.12 3.52 代入3.77

		- 3.11 对数似然(把ln还回去)

\[\ln p(\textbf{t}|w, \beta) = \frac{N}{2}\ln\beta-\frac{N}{2}\ln(2\pi) - \beta E_D(w) \]

		- 3.12 平方和误差函数

\[E_D(w) = \frac{1}{2}\sum\limits_{n=1}^N\{t_n - w^T\phi(w_n)\}^2 \]

		- 3.52 0均值高斯先验分布

\[p(w|\alpha) = \mathcal{N}(w|0,\alpha^{-1}I) \]

  • 最大化证据函数

    • 1.假设alpha.beta的先验是Gamma分布,但是这样w就没有解析解了

    • 2.拉普拉斯近似 4.4章节

    • 3.解析计算证据函数 3.86,求导=0 本章3.5.2

      • 对3.86 alpha求导 3.92 3.91

\[\alpha = \frac{\gamma}{m_N^Tm_N},\gamma = \sum\limits_i\frac{\lambda_i}{\alpha + \lambda_i} \]

		- gamma和alpha相关,和后验m_N也和alpha相关,所以这不是解析解,需要迭代

			- 1.  3.52式求m_N

\[p(w|\alpha) = \mathcal{N}(w|0,\alpha^{-1}I) \]

			- 2.  3.91式求gamma

\[\gamma = \sum\limits_i\frac{\lambda_i}{\alpha + \lambda_i} \]

			- 3.  3.92式重新计算alpha

\[\alpha = \frac{\gamma}{m_N^Tm_N} \]

			- 小技巧

\[A中的\Phi^T\Phi的特征值计算一次就好 \]

			- 数据集N很大的时候可以采用近似解 3.98

\[\alpha = \frac{M}{2E_W(m_N)} \]

	- 对3.86 beta求导

\[\frac{1}{\beta} = \frac{1}{N - \gamma}\sum\limits_{n=1}^N\{t_n - m_N^T\phi(x_n)\}^2 \]

		- 和alpha一样也需要迭代
		- 最大似然求得的beta 3.21

\[\frac{1}{\beta_{ML}} = \frac{1}{N}\sum\limits_{n=1}^N\{t_n - w_{ML}^T\phi(x_n)\}^2 \]

		- 数据集N很大的时候可以采用近似解 3.99

\[\beta = \frac{N}{2E_D(m_N)} \]

- 4.EM算法 第9章节

贝叶斯模型比较

多模型先验分布

  • 一般取均匀分布

多模型后验分布

  • 3.66 多模型贝叶斯公式

\[p(M_i|D) \propto p(M_i)p(D|M_i \]

  • 模型证据/边缘似然函数

    • 模型证据3.68

\[p(D|M_i) = \int p(D|w,M_i)p(w|M_i)dw \]

- 3.68太复杂,简化模型证据,4个假设

	- 1.假设参数w只有一个
	- 2.省略对M_i的依赖
	- 3.最大似然w_{MAP}附近是一个尖峰
	- 4.假设先验是平的(均匀分布)

- 简化后的模型

	- 3.70 基本式

\[p(D) = \int p(D|w)p(w)dw \simeq p(D|w_{MAP}) \frac{\Delta w_{posterior}}{\Delta w_{prior}} \]

	- 3.71 对数式

\[\ln p(D) \simeq \ln p(D|w_{MAP}) + \ln \left(\frac{\Delta w_{posterior}}{\Delta w_{prior}}\right) \]

		- 第一项表示数据的拟合程度是由最可能的参数值给出
		- 第二项根据模型的复杂度来惩罚模型

	- 多参数模型

		- 假设

\[假设所有参数\Delta w_{posterior}/ \Delta w_{prior}都相同 \]

		- M个参数的模型3.72

\[\ln p(D) \simeq \ln p(D|w_{MAP}) + M\ln \left(\frac{\Delta w_{posterior}}{\Delta w_{prior}}\right) \]

- 贝叶斯模型的trade-off

	- 3.72式中,随着增加复杂度

第一项会增加
第二项会减少
所以贝叶斯模型就是在这两项中做权衡,这种不会引发过拟合

  • 贝叶斯因子

\[p(D|M_i) / p(D|M_j) \]

预测分布(已知后验)

  • 3.67

\[p(t|x,D) = \sum\limits_{i=1}^Lp(t|x,M_i,D)p(M_i|D) \]

潜在的问题

  • 与模式识别中其他方法一样,贝叶斯方法需要对模型的形式作出假设,且如果做出的假设不合理,那么结果就会出错
  • 个人理解就是先验要近似正态的随机噪声,必须是噪声,不能还有遗留有用的信息,因为正态就是最混乱的状态-微分熵

局限性

假设了基函数在观测到任何数据之前就被固定了下来

posted @ 2022-03-23 11:08  筷点雪糕侠  阅读(133)  评论(0编辑  收藏  举报