本章节中的一些概念跳来跳去,比较复杂,一些概念如 条件概率,最大似然,先验分布,后验分布,预测分布,证据函数,这些关系都梳理到了思维导图中,

3.线性回归模型
基函数模型
基函数种类
- 高斯基函数
- 多项式基函数
- 傅里叶基函数
- sigmod基函数
回归函数最大似然求解析解
- 条件分布:假设:噪声是正态分布,精度是超参数 3.8
p(t|x,w,β)=N(t|y(x,w),β−1)
y(x,w)=E[t|x]=wTϕ(x)
wML=(ΦTΦ)−1ΦTt,1βML=1NN∑n=1{tn−wTMLϕ(xn)}2
- 得到误差函数 3.12 3.26
ED(w)=12N∑n=1{tn−wTϕ(xn)}2
正则化
ED(w)+λEW(w)
- E_w(w) 3.25
EW(w)=12wTw
- E_D(w) 3.26
ED(w)=12N∑n=1{tn−wTϕ(xn)}2
w=(λI+ΦTΦ)−1ΦTt
12N∑n=1{tn−wTϕ(xn)}2+λ2M∑j=1|wj|q
ED(w)=12N∑n=1{tn−wTϕ(xn)}2,M∑j=1|wj|q≤η
贝叶斯线性回归
学习
p(w)=N(w|m0,S0)
- **0均值先验 3.52**
p(w|α)=N(w|0,α−1I)
- 其他形式的先验 3.56
p(w∣α)=⎡⎢⎣q2(α2)1q1Γ(1q)⎤⎥⎦Mexp(−α2M−1∑j=0∣∣wj∣∣q)
p(w|t)=N(w|mN,SN)mN=SN(S−10m0+βΦTt)S−1N=S−10+βΦTΦ(3.49)(3.50)(3.51)
- **0均值后验 3.49 3.53-3.54**
p(w|t)=N(w|mN,SN)mN=βSNΦTtS−1N=αI+βΦTΦ(3.49)(3.53)(3.54)
lnp(w|t)=−β2N∑n=1{tn−wTϕ(xn)}2−α2wTw+const
- 正则项
λ=α/β
-
顺序学习 图3.7
-
前一个的后验当做后一个的先验
-
python代码实现顺序学习
预测
- 预测分布=条件分布(3.8),后验分布卷积(3.49)=对w做积分 3.57 3.58
p(t|T,α,β)=∫p(t|w,β)p(w|T,α,β)dw=N(t|mTNϕ(x),σ2N(x)),σ2N(x)=1β+ϕ(x)TSNϕ(x)
判别式模型
-
等价核
- 预测均值E(y_test)与训练集目标值y_train之间的线性关系3.60 3.61
y(x,mN)=N∑n=1βϕ(x)TSNϕ(xn)tn=N∑n=1k(x,xn)tn
- 高斯过程-6.4章节再展开
证据近似
预测分布
通过预测分布引出边缘似然函数/证据函数的意义
p(t|t)=∫∫∫p(t|w,β)p(w|t,α,β)p(α,β|t)dwdαdβ
- 3.75 如果后验分布附近有尖峰(即alpha,beta是固定值),并且省略对变量x的依赖关系
p(t|t)≃p(t|t,^α,^β)=∫p(t|w,^β)p(w|t,^α,^β)dw
- 3.8
p(t|x,w,β)=N(t|y(x,w),β−1)
- 3.49
p(w|t)=N(w|mN,SN)
- 引申出如何求将alpha,beta固定?
利用最大化后验
α=^α,β=^β
- 后验的贝叶斯定理
p(α,β|t)∝p(t|α,β)p(α,β)
- 假设先验较平
p(α,β)
- 最大化后验等价于最大化边缘似然函数(也称为证据函数)-这就是证据框架重点
p(t|α,β)
经验贝叶斯模型
1.对w做积分得到边缘似然函数-3.86
2.最大化边缘似然函数确定超参数的值
p(t|α,β)
- 定义
- 证据函数的定理:对w积分 3.77
p(t|α,β)=∫p(t|w,β)p(w|α)dw
- 计算方法
- 方法1 使用2.115 对y的边缘分布(已知p(x),p(y|x)),未展开说明
p(y)=N(y|Aμ+b,L−1+AΛ−1AT)
- 方法2 使用3.11 3.12 3.52 代入3.77
- 3.11 对数似然(把ln还回去)
lnp(t|w,β)=N2lnβ−N2ln(2π)−βED(w)
- 3.12 平方和误差函数
ED(w)=12N∑n=1{tn−wTϕ(wn)}2
- 3.52 0均值高斯先验分布
p(w|α)=N(w|0,α−1I)
α=γmTNmN,γ=∑iλiα+λi
- gamma和alpha相关,和后验m_N也和alpha相关,所以这不是解析解,需要迭代
- 1. 3.52式求m_N
p(w|α)=N(w|0,α−1I)
- 2. 3.91式求gamma
γ=∑iλiα+λi
- 3. 3.92式重新计算alpha
α=γmTNmN
- 小技巧
A中的ΦTΦ的特征值计算一次就好
- 数据集N很大的时候可以采用近似解 3.98
α=M2EW(mN)
- 对3.86 beta求导
1β=1N−γN∑n=1{tn−mTNϕ(xn)}2
- 和alpha一样也需要迭代
- 最大似然求得的beta 3.21
1βML=1NN∑n=1{tn−wTMLϕ(xn)}2
- 数据集N很大的时候可以采用近似解 3.99
β=N2ED(mN)
- 4.EM算法 第9章节
贝叶斯模型比较
多模型先验分布
多模型后验分布
p(Mi|D)∝p(Mi)p(D|Mi
p(D|Mi)=∫p(D|w,Mi)p(w|Mi)dw
- 3.68太复杂,简化模型证据,4个假设
- 1.假设参数w只有一个
- 2.省略对M_i的依赖
- 3.最大似然w_{MAP}附近是一个尖峰
- 4.假设先验是平的(均匀分布)
- 简化后的模型
- 3.70 基本式
p(D)=∫p(D|w)p(w)dw≃p(D|wMAP)ΔwposteriorΔwprior
- 3.71 对数式
lnp(D)≃lnp(D|wMAP)+ln(ΔwposteriorΔwprior)
- 第一项表示数据的拟合程度是由最可能的参数值给出
- 第二项根据模型的复杂度来惩罚模型
- 多参数模型
- 假设
假设所有参数Δwposterior/Δwprior都相同
- M个参数的模型3.72
lnp(D)≃lnp(D|wMAP)+Mln(ΔwposteriorΔwprior)
- 贝叶斯模型的trade-off
- 3.72式中,随着增加复杂度
第一项会增加
第二项会减少
所以贝叶斯模型就是在这两项中做权衡,这种不会引发过拟合
p(D|Mi)/p(D|Mj)
预测分布(已知后验)
p(t|x,D)=L∑i=1p(t|x,Mi,D)p(Mi|D)
潜在的问题
- 与模式识别中其他方法一样,贝叶斯方法需要对模型的形式作出假设,且如果做出的假设不合理,那么结果就会出错
- 个人理解就是先验要近似正态的随机噪声,必须是噪声,不能还有遗留有用的信息,因为正态就是最混乱的状态-微分熵
局限性
假设了基函数在观测到任何数据之前就被固定了下来
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)