PRML-3.4 贝叶斯模型比较

后验分布

假设我们需要比较模型\(\{M_i\} , i = 1,...,L\)集合\(L\)。其中的模型是观测数据\(D\)上的概率分布。在多项式曲线拟合问题中,输入值\(X\)是已知的,分布被定义在目标值\(\textbf{t}\)上。其他类型的模型定义了\(X,\textbf{t}\)上的联合分布。**我们假设数据是由这些模型中的一个生成的,但是不知道究竟是哪一个。我们的不确定性由先验概率分布$ p(M_i) \(表示**。给定一个数据集\)D$,我们希望得到后验分布

$ p(M_i|D) \propto p(M_i)p(D|M_i) \tag{3.66} $

\(p(D|M_i)\)被称为模型证据(model evidence)或者边缘似然函数(marginal likelihood)
边缘似然函数可以被看成从一个模型中生成数据集D的概率

两个模型的模型证据的比例$ p(D|M_i) / p(D|M_j) $被称为贝叶斯因子(Bayes factor)


预测分布

一旦知道模型上的后验分布,根据加法乘法规则就可以得到预测分布:

$ p(t|x,D) = \sum\limits_{i=1}^Lp(t|x,M_i,D)p(M_i|D) \tag{3.67} $


模型证据

对模型求平均的一个简单的近似是使用最可能模型做预测。这被称为模型选择(model selection)。
对于一个由参数集合$ w $控制的模型,根据概率的加法和乘法规则,模型证据为:

$ p(D|M_i) = \int p(D|w,M_i)p(w|M_i)dw \tag{3.68} $


因为3.68过于复杂,对其进行简化
1.假设参数\(w\)只有一个
2.省略对\(M_i\)的依赖
3.最大似然\(w_{MAP}\)附近是一个尖峰
4.假设先验是平的(均匀分布),即\(p(w) = 1/\Delta w_{prior}\)

$ p(D) = \int p(D|w)p(w)dw \simeq p(D|w_{MAP}) \frac{\Delta w_{posterior}}{\Delta w_{prior}} \tag{3.70} $

取对数得到

$ \ln p(D) \simeq \ln p(D|w_{MAP}) + \ln \left(\frac{\Delta w_{posterior}}{\Delta w_{prior}}\right) \tag{3.71} $

第一项表示数据的拟合程度是由最可能的参数值给出
第二项根据模型的复杂度来惩罚模型


多参数模型

\(假设所有参数\Delta w_{posterior}/ \Delta w_{prior}都相同\)

$ \ln p(D) \simeq \ln p(D|w_{MAP}) + M\ln \left(\frac{\Delta w_{posterior}}{\Delta w_{prior}}\right) \tag{3.72} $


复杂度惩罚项的大小随着模型中自适应参数\(M\)的数量线性增长。当我们增加模型的复杂度时,因为一个更加复杂的模型能更好地拟合数据,所以第一项通常会增加,由于第二项依赖于\(M\)所以它会减小**(负的)。由最大模型证据确定的最优的模型复杂度需要在这两个相互竞争的项之间做权衡。

posted @ 2022-03-22 08:47  筷点雪糕侠  阅读(144)  评论(0编辑  收藏  举报