PRML-公式推导 1.88

https://biggerhao.github.io/blog/2018/02/PRML-1-88/

原文回顾

在回归问题中，我们需要选择一个估计函数 \(y(\mathbf{x})\)，来对每个输入 \(\mathbf{x}\) 预测其对应的值 \(t\)。这样做就会导致损失 \(L(t, y(\mathbf{x}))\)。平均损失或期望损失的公式为

\[ \mathbb{E}(L) = \int \int L(t, y(\mathbf{x})) p(\mathbf{x},t) \mathrm{d}\mathbf{x} \mathrm{d}t \tag{1.86} \]

回归问题中常用的一种损失函数是平方损失，即 \(L(t,y(\mathbf{x})) = \left\{ y(\mathbf{x})-t \right\}^2\)。那么期望损失就可以写成

\[ \mathbb{E}(L) = \int \int \left\{ y(\mathbf{x})-t \right\}^2 p(\mathbf{x},t) \mathrm{d}\mathbf{x} \mathrm{d}t \tag{1.87} \]

我们的目标就是选择一个 \(y(\mathbf{x})\) 使得 \(\mathbb{E}(L)\) 最小。如果我们假设 \(y(\mathbf{x})\) 是完全灵活的（completely flexible），那么可以通过变分法得到

\[\frac{\delta\mathbb{E}[L]}{\delta y(\mathbf{x})} = 2 \int \left\{ y(\mathbf{x})-t \right\} p(\mathbf{x},t) \mathrm{d}x = 0 \tag{1.88}\]

以上是 PRML 中第 46 页关于回归的一点介绍，其中公式 (1.88) 比较费解，下面对该公式的推导进行分析。

公式推导

上述结果用到了欧拉方程，首先我们来看一下什么是欧拉方程。

定理使最简泛函 \[ F[y] = \int_{x_0}^{x_1}G(y(x), y'(x),x) \mathrm{d}x \tag{D.5} \]

取极值且满足固定边界条件 \[ y(x_0)=y_0,y(x_1)=y_1 \] 的极值曲线 \(y=y(x)\) 应满足必要条件 \[ \frac{\partial{G}}{\partial{y}} - \frac{\mathrm{d}}{\mathrm{d}x} \left( \frac{\partial{G}}{\partial{y'}} \right)=0 \tag{D.8} \] 的解，式中，\(F\) 是 \(x, y, y'\) 的已知函数并有二阶连续偏导数。

式 (D.8) 称为泛函 (D.5) 的欧拉方程。

回到式 (1.87)，这个泛函还不具备 (D.5) 的形式，根据富比尼定理，交换积分顺序得 \[ \mathbb{E}(L) = \int \int \left\{ y(\mathbf{x})-t \right\}^2 p(\mathbf{x},t) \mathrm{d}t \mathrm{d}\mathbf{x} \] 这时取 \(\displaystyle{G(y,y',x) = \int \left\{ y(\mathbf{x})-t \right\}^2 p(\mathbf{x},t) \mathrm{d}t}\)，根据欧拉方程可得使得 (1.87) 取最小值的必要条件为 \[ \frac{\partial{G}}{\partial{y}} - \frac{\mathrm{d}}{\mathrm{d}x} \left( \frac{\partial{G}}{\partial{y'}} \right)=0 \] 由于 \(G\) 与 \(y'\) 无关，所以 \(\displaystyle{\frac{\partial{G}}{\partial{y'}} = 0}\)，又根据莱布尼兹公式，有 \[ \frac{\partial{G}}{\partial{y}} = \int2 \left\{ y(\mathbf{x})-t \right\} p(\mathbf{x},t) \mathrm{d}t = 0 \tag{1.88} \] （注：书中 \(\displaystyle{\frac{\partial{\mathbb{E}[L]}}{\partial{y(\mathbf{x})}}}\) 的写法不知道对不对。）

参考资料

Pattern Recognition and Machine Learning. Bishop.
变分法基础. 老大中.
Bishop ML and pattern recognition calculus of variations linear regression loss function
Fubini's theorem
Leibniz integral rule

posted @ 2022-02-18 08:21 筷点雪糕侠阅读(265) 评论(0) 收藏举报

刷新页面返回顶部

筷点雪糕侠

PRML-公式推导 1.88

原文回顾

公式推导

参考资料

公告