本章节主要讨论
在使用贝叶斯方法对参数进行求和或者积分时,过拟合现象不会出现
1.偏置-方差分解
1.5.5节中,当我们讨论回归问题的决策论时,我们考虑了一旦我们知道了条件概率分布p(t|x),就能够给出对应的最优预测结果的不同损失函数。使用最多的平方误差函数,此时最优预测的条件期望:
h(x)=E[t|x]=∫tp(t|x)dt(3.36)
在1.5.5节中,我们证明了平方损失函数的期望可以写成(1.90)
E[L]=∫{y(x)−h(x)}2p(x)dx+∫∫{h(x)−t}2p(x,t)dxdt(3.37)
第二项与y(x)无关,是数据本身噪声造成的,表示期望损失能达到的最小值
如果使用由参数向量w控制的参数函数$ y(x,w) 来对h(x)建模,那么从贝叶斯的观点来看,模型的不确定性是通过w$的后验概率分布p(w|x)来表示的。但频率学家用数据集D对w进行点估计,然后用下面的思想实验估计不确定性。
尝试通过下面的思想实验来表示估计的不确定性
考虑式(3.37)的第一项的被积函数,对于一个特定的数据集D,它的形式为:
{y(x;D)−h(x)}2(3.38)
展开有
{y(x;D)−ED[y(x;D)]+ED[y(x;D)]−h(x)}2={y(x;D)−ED[y(x;D)]}2+{ED[y(x;D)]−h(x)}2+2{y(x;D)−ED[y(x;D)]}{ED[y(x;D)]−h(x)}(3.39)
再在D上求期望
其中3.39中的
第一项求期望后
ED[{y(x;D)−ED[y(x;D)]}2],也就是下面的方差项
第二项求期望后
ED[{ED[y(x;D)]−h(x)}2],因为h(x)和D无关,所以这一项不动,仍然={ED[y(x;D)]−h(x)}2
第三项求期望后
ED[2{y(x;D)−ED[y(x;D)]}{ED[y(x;D)]−h(x)}]=0
其中ED[2{y(x;D)−ED[y(x;D)]}]=2ED[y(x;D)−ED[y(x;D)]=0
最后有结论如下
ED[{y(x;D)−h(x)}2]={ED[y(x;D)]−h(x)}2(偏置 )2+ED[{y(x;D)−ED[y(x;D)]}2]方差 (3.40)
剩下的不解释了
总之,期望损失函数在偏置和方差中做了折中,贝叶斯模型就是这么一个情况
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)