PRML-第三章节 思维导图 关系梳理

本章节中的一些概念跳来跳去,比较复杂,一些概念如 条件概率,最大似然,先验分布,后验分布,预测分布,证据函数,这些关系都梳理到了思维导图中,

3.线性回归模型

基函数模型

基函数种类

  • 高斯基函数
  • 多项式基函数
  • 傅里叶基函数
  • sigmod基函数

回归函数最大似然求解析解

  • 条件分布:假设:噪声是正态分布,精度是超参数 3.8

p(t|x,w,β)=N(t|y(x,w),β1)

  • 回归函数=条件均值 3.9

y(x,w)=E[t|x]=wTϕ(x)

  • 对噪声进行似然函数,求解

wML=(ΦTΦ)1ΦTt,1βML=1Nn=1N{tnwMLTϕ(xn)}2

- 得到误差函数 3.12 3.26

ED(w)=12n=1N{tnwTϕ(xn)}2

正则化

  • 思想:添加正则化项控制过拟合

ED(w)+λEW(w)

- E_w(w) 3.25

EW(w)=12wTw

- E_D(w) 3.26

ED(w)=12n=1N{tnwTϕ(xn)}2

  • L2解析解

w=(λI+ΦTΦ)1ΦTt

  • 一般形式

12n=1N{tnwTϕ(xn)}2+λ2j=1M|wj|q

  • 正则化等价于带约束的误差函数

ED(w)=12n=1N{tnwTϕ(xn)}2,j=1M|wj|qη

贝叶斯线性回归

学习

  • 先验

    • 一般高斯先验 3.48

p(w)=N(w|m0,S0)

- **0均值先验 3.52**

p(w|α)=N(w|0,α1I)

- 其他形式的先验 3.56

p(wα)=[q2(α2)1q1Γ(1q)]Mexp(α2j=0M1|wj|q)

  • 后验

    • 一般高斯后验 3.49-3.51

(3.49)p(w|t)=N(w|mN,SN)(3.50)mN=SN(S01m0+βΦTt)(3.51)SN1=S01+βΦTΦ

- **0均值后验 3.49 3.53-3.54**

(3.49)p(w|t)=N(w|mN,SN)(3.53)mN=βSNΦTt(3.54)SN1=αI+βΦTΦ

  • 后验分布关于w最大化 3.55

lnp(w|t)=β2n=1N{tnwTϕ(xn)}2α2wTw+const

- 正则项

λ=α/β

  • 顺序学习 图3.7

    • 前一个的后验当做后一个的先验

      • 在线学习框架
    • python代码实现顺序学习

预测

  • 预测分布=条件分布(3.8),后验分布卷积(3.49)=对w做积分 3.57 3.58

p(t|T,α,β)=p(t|w,β)p(w|T,α,β)dw=N(t|mNTϕ(x),σN2(x)),σN2(x)=1β+ϕ(x)TSNϕ(x)

  • 观测越多,后验概率收窄,习题3.11

判别式模型

  • 等价核

    • 预测均值E(y_test)与训练集目标值y_train之间的线性关系3.60 3.61

y(x,mN)=n=1Nβϕ(x)TSNϕ(xn)tn=n=1Nk(x,xn)tn

- 高斯过程-6.4章节再展开

证据近似

预测分布

通过预测分布引出边缘似然函数/证据函数的意义

  • 3.74 基本预测分布公式

p(t|t)=p(t|w,β)p(w|t,α,β)p(α,β|t)dwdαdβ

  • 3.75 如果后验分布附近有尖峰(即alpha,beta是固定值),并且省略对变量x的依赖关系

p(t|t)p(t|t,α^,β^)=p(t|w,β^)p(w|t,α^,β^)dw

- 3.8

p(t|x,w,β)=N(t|y(x,w),β1)

- 3.49

p(w|t)=N(w|mN,SN)

- 引申出如何求将alpha,beta固定?

利用最大化后验

α=α^,β=β^

	- 后验的贝叶斯定理

p(α,β|t)p(t|α,β)p(α,β)

		- 假设先验较平

p(α,β)

		- 最大化后验等价于最大化边缘似然函数(也称为证据函数)-这就是证据框架重点

p(t|α,β)

经验贝叶斯模型

1.对w做积分得到边缘似然函数-3.86
2.最大化边缘似然函数确定超参数的值

  • 边缘似然函数/证据函数
    概念参看公式3.68

p(t|α,β)

- 定义

	- 证据函数的定理:对w积分 3.77

p(t|α,β)=p(t|w,β)p(w|α)dw

- 计算方法

	- 方法1 使用2.115 对y的边缘分布(已知p(x),p(y|x)),未展开说明

p(y)=N(y|Aμ+b,L1+AΛ1AT)

	- 方法2 使用3.11 3.12 3.52 代入3.77

		- 3.11 对数似然(把ln还回去)

lnp(t|w,β)=N2lnβN2ln(2π)βED(w)

		- 3.12 平方和误差函数

ED(w)=12n=1N{tnwTϕ(wn)}2

		- 3.52 0均值高斯先验分布

p(w|α)=N(w|0,α1I)

  • 最大化证据函数

    • 1.假设alpha.beta的先验是Gamma分布,但是这样w就没有解析解了

    • 2.拉普拉斯近似 4.4章节

    • 3.解析计算证据函数 3.86,求导=0 本章3.5.2

      • 对3.86 alpha求导 3.92 3.91

α=γmNTmNγ=iλiα+λi

		- gamma和alpha相关,和后验m_N也和alpha相关,所以这不是解析解,需要迭代

			- 1.  3.52式求m_N

p(w|α)=N(w|0,α1I)

			- 2.  3.91式求gamma

γ=iλiα+λi

			- 3.  3.92式重新计算alpha

α=γmNTmN

			- 小技巧

AΦTΦ

			- 数据集N很大的时候可以采用近似解 3.98

α=M2EW(mN)

	- 对3.86 beta求导

1β=1Nγn=1N{tnmNTϕ(xn)}2

		- 和alpha一样也需要迭代
		- 最大似然求得的beta 3.21

1βML=1Nn=1N{tnwMLTϕ(xn)}2

		- 数据集N很大的时候可以采用近似解 3.99

β=N2ED(mN)

- 4.EM算法 第9章节

贝叶斯模型比较

多模型先验分布

  • 一般取均匀分布

多模型后验分布

  • 3.66 多模型贝叶斯公式

p(Mi|D)p(Mi)p(D|Mi

  • 模型证据/边缘似然函数

    • 模型证据3.68

p(D|Mi)=p(D|w,Mi)p(w|Mi)dw

- 3.68太复杂,简化模型证据,4个假设

	- 1.假设参数w只有一个
	- 2.省略对M_i的依赖
	- 3.最大似然w_{MAP}附近是一个尖峰
	- 4.假设先验是平的(均匀分布)

- 简化后的模型

	- 3.70 基本式

p(D)=p(D|w)p(w)dwp(D|wMAP)ΔwposteriorΔwprior

	- 3.71 对数式

lnp(D)lnp(D|wMAP)+ln(ΔwposteriorΔwprior)

		- 第一项表示数据的拟合程度是由最可能的参数值给出
		- 第二项根据模型的复杂度来惩罚模型

	- 多参数模型

		- 假设

Δwposterior/Δwprior

		- M个参数的模型3.72

lnp(D)lnp(D|wMAP)+Mln(ΔwposteriorΔwprior)

- 贝叶斯模型的trade-off

	- 3.72式中,随着增加复杂度

第一项会增加
第二项会减少
所以贝叶斯模型就是在这两项中做权衡,这种不会引发过拟合

  • 贝叶斯因子

p(D|Mi)/p(D|Mj)

预测分布(已知后验)

  • 3.67

p(t|x,D)=i=1Lp(t|x,Mi,D)p(Mi|D)

潜在的问题

  • 与模式识别中其他方法一样,贝叶斯方法需要对模型的形式作出假设,且如果做出的假设不合理,那么结果就会出错
  • 个人理解就是先验要近似正态的随机噪声,必须是噪声,不能还有遗留有用的信息,因为正态就是最混乱的状态-微分熵

局限性

假设了基函数在观测到任何数据之前就被固定了下来

posted @   筷点雪糕侠  阅读(134)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)
点击右上角即可分享
微信分享提示