1.一些记号和回顾
参数 |
含义 |
N |
样本量 |
x=(x1,...,xN)T |
样本数据集 |
t=(t1,...,tN)T |
样本的目标数据集 |
p(x|μ,σ2)=N∏n=1N(xn|μ,σ2) |
数据集x是独立同分布,给定μ和σ2的情况下的数据集的概率 |
w |
模型参数 |
μ |
似然函数期望 |
σ2 |
似然函数方差 |
β |
似然函数精度,β−1=σ2 |
y(x,w)=w0+w1x+w2x2+...+wMxM=M∑j=0wjxj |
多项式拟合函数 |
α |
先验分布的精度 |
贝叶斯定理(Bayes' theorem)
p(Y|X)=p(X|Y)p(Y)p(X)
贝叶斯定理(Bayes' theorem),在模式识别和机器学习领域扮演者中⼼⾓⾊
贝叶斯定理中的分母可以⽤出现在分⼦中的项表⽰:
p(X)=∑Yp(X|Y)p(Y)−离散型
p(X)=∫p(X,Y)dY−连续型−这里要做积分,也就是贝叶斯公式不太好求的地方
p(X)=∫p(X|Y)p(Y)dY
加法规则 Sum Rule
p(X=xi)=cjN=L∑j=1p(X=xi,Y=yj)
一般简写为
p(X)=∑Yp(X,Y)−离散型
p(X)=∫p(X,Y)dY−连续型
乘法规则 Product Rule
p(X=xi,Y=yj)=nijN=nijciciN=p(Y=yj|X=xi)p(X=xi)
一般简写为
p(X,Y)=p(Y|X)p(X)
p(X,Y)是联合概率,p(Y|X)是条件概率,p(X)是边缘概率
2.频率派最大似然推导
目标t中含有噪声,假定这些噪声服从高斯分布,则有
p(t|x,w,β)=N(t|y(x,w),β−1)−中文版这里写错了
因为噪声服从高斯分布,故可以假定t服从高斯分布,均值为多项式拟合函数y(x,w),β是精度
这种情况下就可以用最大似然方法推导
p(t|x,w,β)=N∏n=1N(tn|y(xn,w),β−1)
见书
3.曲线拟合的贝叶斯方法
引入多项式系数w上的先验分布,简单起见,我们认为w是服从高斯分布的
p(w|α)=N(w|0,α−1I)=(α2π)M+12exp{−α2wTw},α是该分布的精度(等价于β,虽然都是高斯分布,但是值不一样,是两个随机变量对应的分布),是个超参数,N(w|0,α−1I)意思就是均值为0,方差为α−1的高斯分布
根据贝叶斯定理
p(w|x,t,α,β)∝p(t|x,w,β)p(w|α)
可以看本文同目录下的1.66公式推导,主要是因为α和其他参数都是独立分布的
取公式(1.66)的负对数,结合公式(1.62)和公式(1.65),我们可以看到,最⼤化后验概率就是最⼩化下式:
β2∑Nn=1{y(xn,w)−tn}2+α2wTw
因此我们看到最⼤化后验概率等价于最⼩化正则化的平⽅和误差函数(之前在公式(1.4)中提到),正则化参数为λ=αβ
这张图做个说明
首先w已经拟合好了,算出了模型函数y=(x,w),函数的均值是红色线,那么在x0处因为存在噪声,所以x0处对应的值是一个以y(x0,w)为均值的高斯分布p(t|x0,w,β)

【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)