PRML-1.2.5 重新考察曲线拟合问题-曲线拟合的贝叶斯方法
1.一些记号和回顾
参数 | 含义 |
---|---|
\(N\) | 样本量 |
\(x=(x_1,...,x_N)^T\) | \(样本数据集\) |
\(t=(t_1,...,t_N)^T\) | \(样本的目标数据集\) |
\(p(x|\mu,\sigma^2)=\prod\limits_{n=1}^{N} \mathcal{N}(x_n|\mu,\sigma^2)\) | \(数据集x是独立同分布,给定\mu和\sigma^2的情况下的数据集的概率\) |
\(w\) | \(模型参数\) |
\(\mu\) | \(似然函数期望\) |
\(\sigma^2\) | \(似然函数方差\) |
\(\beta\) | \(似然函数精度,\beta^{-1}=\sigma^2\) |
\(y(x,w)=w_0+w_1x+w_2x^2+...+w_Mx^M=\sum\limits_{j=0}^{M}w_jx^j\) | \(多项式拟合函数\) |
\(\alpha\) | \(先验分布的精度\) |
贝叶斯定理(Bayes' theorem)
\(p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)}\)
贝叶斯定理(Bayes' theorem),在模式识别和机器学习领域扮演者中⼼⾓⾊
贝叶斯定理中的分母可以⽤出现在分⼦中的项表⽰:
\(p(X) = \sum\limits_Yp(X|Y)p(Y)-离散型\)
\(p(X)=\int p(X,Y)dY-连续型-\color{red}{这里要做积分,也就是贝叶斯公式不太好求的地方}\)
\(p(X)=\int p(X|Y)p(Y)dY\)
加法规则 Sum Rule
\(p(X=x_i)=\frac{c_j}{N}=\sum\limits_{j=1}^{L}p(X=x_i,Y=y_j)\)
\(一般简写为\)
\(p(X)=\sum\limits_Yp(X,Y)-离散型\)
\(p(X)=\int p(X,Y)dY-连续型\)
乘法规则 Product Rule
\(p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}=\frac{n_{ij}}{c_i}\frac{c_i}{N}=p(Y = y_j | X = x_i)p(X=x_i)\)
\(一般简写为\)
\(p(X,Y)=p(Y|X)p(X)\)
\(p(X,Y)是联合概率,p(Y|X)是条件概率,p(X)是边缘概率\)
2.频率派最大似然推导
\(目标t中含有噪声,假定这些噪声服从高斯分布,则有\)
\(p(t|x,w,\beta)=\mathcal{N}(t|y(x,w),\beta^{-1})-中文版这里写错了\)
\(因为噪声服从高斯分布,故可以假定t服从高斯分布,均值为多项式拟合函数y(x,w),\beta是精度\)
\(这种情况下就可以用最大似然方法推导\)
\(\color{red}{p(t|x,w,\beta)=\prod\limits_{n=1}^{N}\mathcal{N}(t_n|y(x_n,w),\beta^{-1})}\)
\(见书\)
3.曲线拟合的贝叶斯方法
\(引入多项式系数w上的先验分布,简单起见,我们认为w是服从高斯分布的\)
\(p(w|\alpha) =\mathcal{N}(w|0,\alpha^{-1}I)=(\frac{\alpha}{2\pi})^{\frac{M+1}{2}} exp\{-\frac{\alpha}{2}w^Tw\} ,\alpha是该分布的精度(等价于\beta,虽然都是高斯分布,但是值不一样,是两个随机变量对应的分布),是个\color{red}{超参数},\mathcal{N}(w|0,\alpha^{-1}I)意思就是均值为0,方差为\alpha^{-1}的高斯分布\)
\(根据贝叶斯定理\)
\(\color{red}{p(w|x,t,\alpha,\beta)\propto p(t|x,w,\beta)p(w|\alpha)}\)
\(可以看本文同目录下的1.66 公式推导,主要是因为\alpha和其他参数都是独立分布的\)
\(取公式(1.66)的负对数,结合公式(1.62)和公式(1.65),我们可以看到,最⼤化后验概率就是最⼩化下式:\)
\(\frac{\beta}{2}\sum_{n=1}^{N}\{y(x_n,w)-t_n\}^2 +\frac{\alpha}{2}w^Tw\)
\(因此我们看到最⼤化后验概率等价于最⼩化正则化的平⽅和误差函数(之前在公式(1.4)中提到),正则化参数为\lambda =\frac{\alpha}{\beta}\)
这张图做个说明
\(首先w已经拟合好了,算出了模型函数y=(x,w),函数的均值是红色线,那么在x_0处因为存在噪声,所以x_0处对应的值是一个以y(x_0,w)为均值的高斯分布p(t|x_0,w,\beta)\)