PRML-第三章节 思维导图 关系梳理
本章节中的一些概念跳来跳去,比较复杂,一些概念如 条件概率,最大似然,先验分布,后验分布,预测分布,证据函数,这些关系都梳理到了思维导图中,
3.线性回归模型
基函数模型
基函数种类
- 高斯基函数
- 多项式基函数
- 傅里叶基函数
- sigmod基函数
回归函数最大似然求解析解
- 条件分布:假设:噪声是正态分布,精度是超参数 3.8
\[p(t|x,w,\beta) = \mathcal{N}(t|y(x,w), \beta^{-1})
\]
- 回归函数=条件均值 3.9
\[y(x,w)=\mathbb{E}[t|x]=w^T\phi(x)
\]
- 对噪声进行似然函数,求解
\[w_{ML} = (\Phi^T\Phi)^{-1}\Phi^T\textbf{t},
\frac{1}{\beta_{ML}} = \frac{1}{N}\sum\limits_{n=1}^N\{t_n - w_{ML}^T\phi(x_n)\}^2
\]
- 得到误差函数 3.12 3.26
\[E_D(w) = \frac{1}{2}\sum\limits_{n=1}^N\{t_n - w^T\phi(x_n)\}^2
\]
正则化
- 思想:添加正则化项控制过拟合
\[E_D(w) + \lambda E_W(w)
\]
- E_w(w) 3.25
\[E_W(w) = \frac{1}{2}w^Tw
\]
- E_D(w) 3.26
\[E_D(w) = \frac{1}{2}\sum\limits_{n=1}^N\{t_n-w^T\phi(x_n)\}^2
\]
- L2解析解
\[w = (\lambda I + \Phi^T\Phi)^{-1}\Phi^Tt
\]
- 一般形式
\[\frac{1}{2}\sum\limits_{n=1}^N\{t_n - w^T\phi(x_n)\}^2 + \frac{\lambda}{2}\sum\limits_{j=1}^M|w_j|^q
\]
- 正则化等价于带约束的误差函数
\[E_D(w) = \frac{1}{2}\sum\limits_{n=1}^N\{t_n - w^T\phi(x_n)\}^2,\sum\limits_{j=1}^M|w_j|^q \leq \eta
\]
贝叶斯线性回归
学习
-
先验
- 一般高斯先验 3.48
\[p(w) = \mathcal{N}(w|m_0,S_0)
\]
- **0均值先验 3.52**
\[p(w|\alpha) = \mathcal{N}(w|0,\alpha^{-1}I)
\]
- 其他形式的先验 3.56
\[p(\boldsymbol{w} \mid \alpha)=\left[\frac{q}{2}\left(\frac{\alpha}{2}\right)^{\frac{1}{q}} \frac{1}{\Gamma\left(\frac{1}{q}\right)}\right]^{M} \exp \left(-\frac{\alpha}{2} \sum_{j=0}^{M-1}\left|w_{j}\right|^{q}\right)
\]
-
后验
- 一般高斯后验 3.49-3.51
\[\begin{eqnarray} p(w|t) &=& \mathcal{N}(w|m_N,S_N) \tag{3.49}\\
m_N &=& S_N(S_0^{-1}m_0 + \beta\Phi^Tt) \tag{3.50} \\
S_N^{-1} &=& S_0^{-1} + \beta\Phi^T\Phi \tag{3.51} \end{eqnarray}
\]
- **0均值后验 3.49 3.53-3.54**
\[\begin{eqnarray} p(w|t) &=& \mathcal{N}(w|m_N,S_N) \tag{3.49}\\
m_N &=& \beta S_N\Phi^Tt \tag{3.53} \\ S_N^{-1} &=& \alpha I + \beta\Phi^T\Phi \tag{3.54} \end{eqnarray}
\]
- 后验分布关于w最大化 3.55
\[\ln p(w|t) = -\frac{\beta}{2}\sum\limits_{n=1}^N\{t_n - w^T\phi(x_n)\}^2 - \frac{\alpha}{2}w^Tw + const
\]
- 正则项
\[\lambda = \alpha/\beta
\]
-
顺序学习 图3.7
-
前一个的后验当做后一个的先验
- 在线学习框架
-
python代码实现顺序学习
-
预测
- 预测分布=条件分布(3.8),后验分布卷积(3.49)=对w做积分 3.57 3.58
\[p(t|T, \alpha, \beta) = \int p(t|w,\beta)p(w|T,\alpha,\beta)dw= \mathcal{N}(t|m_N^T\phi(x),\sigma_N^2(x)), \sigma_N^2(x) = \frac{1}{\beta} + \phi(x)^TS_N\phi(x)
\]
- 观测越多,后验概率收窄,习题3.11
判别式模型
-
等价核
- 预测均值E(y_test)与训练集目标值y_train之间的线性关系3.60 3.61
\[y(x,m_N)=\sum\limits_{n=1}^N\beta\phi(x)^TS_N\phi(x_n)t_n= \sum\limits_{n=1}^Nk(x,x_n)t_n
\]
- 高斯过程-6.4章节再展开
证据近似
预测分布
通过预测分布引出边缘似然函数/证据函数的意义
- 3.74 基本预测分布公式
\[p(t|\textbf{t})=\int\int\int p(t|w,\beta)p(w|\textbf{t},\alpha,\beta)p(\alpha,\beta|\textbf{t})dwd\alpha d\beta
\]
- 3.75 如果后验分布附近有尖峰(即alpha,beta是固定值),并且省略对变量x的依赖关系
\[p(t|\textbf{t}) \simeq p(t|\textbf{t},\hat{\alpha},\hat{\beta}) = \int p(t|w,\hat{\beta})p(w|\textbf{t}, \hat{\alpha},\hat{\beta})dw
\]
- 3.8
\[p(t|x,w,\beta) = \mathcal{N}(t|y(x,w), \beta^{-1})
\]
- 3.49
\[p(w|t) = \mathcal{N}(w|m_N,S_N)
\]
- 引申出如何求将alpha,beta固定?
利用最大化后验
\[\alpha=\hat \alpha,\beta =\hat \beta
\]
- 后验的贝叶斯定理
\[p(\alpha,\beta|\textbf{t}) \propto p(\textbf{t}|\alpha,\beta)p(\alpha,\beta)
\]
- 假设先验较平
\[p(\alpha,\beta)
\]
- 最大化后验等价于最大化边缘似然函数(也称为证据函数)-这就是证据框架重点
\[p(\textbf{t}|\alpha,\beta)
\]
经验贝叶斯模型
1.对w做积分得到边缘似然函数-3.86
2.最大化边缘似然函数确定超参数的值
- 边缘似然函数/证据函数
概念参看公式3.68
\[p(\textbf{t}|\alpha,\beta)
\]
- 定义
- 证据函数的定理:对w积分 3.77
\[p(\textbf{t}|\alpha,\beta) = \int p(\textbf{t}|w,\beta)p(w|\alpha)dw
\]
- 计算方法
- 方法1 使用2.115 对y的边缘分布(已知p(x),p(y|x)),未展开说明
\[p(y) = \mathcal{N}(y|A\mu + b,L^{-1} + A\Lambda^{-1}A^T)
\]
- 方法2 使用3.11 3.12 3.52 代入3.77
- 3.11 对数似然(把ln还回去)
\[\ln p(\textbf{t}|w, \beta) = \frac{N}{2}\ln\beta-\frac{N}{2}\ln(2\pi) - \beta E_D(w)
\]
- 3.12 平方和误差函数
\[E_D(w) = \frac{1}{2}\sum\limits_{n=1}^N\{t_n - w^T\phi(w_n)\}^2
\]
- 3.52 0均值高斯先验分布
\[p(w|\alpha) = \mathcal{N}(w|0,\alpha^{-1}I)
\]
-
最大化证据函数
-
1.假设alpha.beta的先验是Gamma分布,但是这样w就没有解析解了
-
2.拉普拉斯近似 4.4章节
-
3.解析计算证据函数 3.86,求导=0 本章3.5.2
- 对3.86 alpha求导 3.92 3.91
-
\[\alpha = \frac{\gamma}{m_N^Tm_N},\gamma = \sum\limits_i\frac{\lambda_i}{\alpha + \lambda_i}
\]
- gamma和alpha相关,和后验m_N也和alpha相关,所以这不是解析解,需要迭代
- 1. 3.52式求m_N
\[p(w|\alpha) = \mathcal{N}(w|0,\alpha^{-1}I)
\]
- 2. 3.91式求gamma
\[\gamma = \sum\limits_i\frac{\lambda_i}{\alpha + \lambda_i}
\]
- 3. 3.92式重新计算alpha
\[\alpha = \frac{\gamma}{m_N^Tm_N}
\]
- 小技巧
\[A中的\Phi^T\Phi的特征值计算一次就好
\]
- 数据集N很大的时候可以采用近似解 3.98
\[\alpha = \frac{M}{2E_W(m_N)}
\]
- 对3.86 beta求导
\[\frac{1}{\beta} = \frac{1}{N - \gamma}\sum\limits_{n=1}^N\{t_n - m_N^T\phi(x_n)\}^2
\]
- 和alpha一样也需要迭代
- 最大似然求得的beta 3.21
\[\frac{1}{\beta_{ML}} = \frac{1}{N}\sum\limits_{n=1}^N\{t_n - w_{ML}^T\phi(x_n)\}^2
\]
- 数据集N很大的时候可以采用近似解 3.99
\[\beta = \frac{N}{2E_D(m_N)}
\]
- 4.EM算法 第9章节
贝叶斯模型比较
多模型先验分布
- 一般取均匀分布
多模型后验分布
- 3.66 多模型贝叶斯公式
\[p(M_i|D) \propto p(M_i)p(D|M_i
\]
-
模型证据/边缘似然函数
- 模型证据3.68
\[p(D|M_i) = \int p(D|w,M_i)p(w|M_i)dw
\]
- 3.68太复杂,简化模型证据,4个假设
- 1.假设参数w只有一个
- 2.省略对M_i的依赖
- 3.最大似然w_{MAP}附近是一个尖峰
- 4.假设先验是平的(均匀分布)
- 简化后的模型
- 3.70 基本式
\[p(D) = \int p(D|w)p(w)dw \simeq p(D|w_{MAP}) \frac{\Delta w_{posterior}}{\Delta w_{prior}}
\]
- 3.71 对数式
\[\ln p(D) \simeq \ln p(D|w_{MAP}) + \ln \left(\frac{\Delta w_{posterior}}{\Delta w_{prior}}\right)
\]
- 第一项表示数据的拟合程度是由最可能的参数值给出
- 第二项根据模型的复杂度来惩罚模型
- 多参数模型
- 假设
\[假设所有参数\Delta w_{posterior}/ \Delta w_{prior}都相同
\]
- M个参数的模型3.72
\[\ln p(D) \simeq \ln p(D|w_{MAP}) + M\ln \left(\frac{\Delta w_{posterior}}{\Delta w_{prior}}\right)
\]
- 贝叶斯模型的trade-off
- 3.72式中,随着增加复杂度
第一项会增加
第二项会减少
所以贝叶斯模型就是在这两项中做权衡,这种不会引发过拟合
- 贝叶斯因子
\[p(D|M_i) / p(D|M_j)
\]
预测分布(已知后验)
- 3.67
\[p(t|x,D) = \sum\limits_{i=1}^Lp(t|x,M_i,D)p(M_i|D)
\]
潜在的问题
- 与模式识别中其他方法一样,贝叶斯方法需要对模型的形式作出假设,且如果做出的假设不合理,那么结果就会出错
- 个人理解就是先验要近似正态的随机噪声,必须是噪声,不能还有遗留有用的信息,因为正态就是最混乱的状态-微分熵