PRML-公式推导 1.88

https://biggerhao.github.io/blog/2018/02/PRML-1-88/

原文回顾

在回归问题中,我们需要选择一个估计函数 y(x),来对每个输入 x 预测其对应的值 t。这样做就会导致损失 L(t,y(x))。平均损失或期望损失的公式为

(1.86)E(L)=L(t,y(x))p(x,t)dxdt

回归问题中常用的一种损失函数是平方损失,即 L(t,y(x))={y(x)t}2。那么期望损失就可以写成

(1.87)E(L)={y(x)t}2p(x,t)dxdt

我们的目标就是选择一个 y(x) 使得 E(L) 最小。如果我们假设 y(x) 是完全灵活的(completely flexible),那么可以通过变分法得到

(1.88)δE[L]δy(x)=2{y(x)t}p(x,t)dx=0

以上是 PRML 中第 46 页关于回归的一点介绍,其中公式 (1.88) 比较费解,下面对该公式的推导进行分析。

公式推导

上述结果用到了欧拉方程,首先我们来看一下什么是欧拉方程。

定理 使最简泛函 (D.5)F[y]=x0x1G(y(x),y(x),x)dx

取极值且满足固定边界条件 y(x0)=y0,y(x1)=y1 的极值曲线 y=y(x) 应满足必要条件 (D.8)Gyddx(Gy)=0 的解,式中,Fx,y,y 的已知函数并有二阶连续偏导数。

式 (D.8) 称为泛函 (D.5) 的欧拉方程。

回到式 (1.87),这个泛函还不具备 (D.5) 的形式,根据富比尼定理,交换积分顺序得 E(L)={y(x)t}2p(x,t)dtdx 这时取 G(y,y,x)={y(x)t}2p(x,t)dt,根据欧拉方程可得使得 (1.87) 取最小值的必要条件为 Gyddx(Gy)=0 由于 Gy 无关,所以 Gy=0,又根据莱布尼兹公式,有 (1.88)Gy=2{y(x)t}p(x,t)dt=0 (注:书中 E[L]y(x) 的写法不知道对不对。)

参考资料

  1. Pattern Recognition and Machine Learning. Bishop.
  2. 变分法基础. 老大中.
  3. Bishop ML and pattern recognition calculus of variations linear regression loss function
  4. Fubini's theorem
  5. Leibniz integral rule
posted @   筷点雪糕侠  阅读(237)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)
点击右上角即可分享
微信分享提示