关于PRML Chap1的一丢丢附加证明

在第一章的1.2.6节，有公式（1.68）

\[p(t | x, \mathbf{x}, \mathbf{t})=\int p(t | x, \boldsymbol{w}) p(\boldsymbol{w} | \mathbf{x}, \mathbf{t}) \mathrm{d} \boldsymbol{w} \]

这个公式实际上是在贝叶斯框架下对回归$t=y(x,w)$进行推断，即给出了新的$x$（注意粗体的区别，$\mathbf{x}$是测试集的样本，这部分信息是已知的）下，我们对t的后验概率进行推断。

从读MLAPP的时候就对这个公式有点疑惑，虽然书中一笔带过，但是小白的我决定自己推导一番：

\[LHS=p(t | x, \mathbf{x}, \mathbf{t})=\int p(t,\boldsymbol{w}|x,\mathbf{x}, \mathbf{t})d\boldsymbol{w} \]

而

\[\begin{aligned}RHS&=\int p(t | x, \boldsymbol{w}) p(\boldsymbol{w} | \mathbf{x}, \mathbf{t})\mathrm{d} \boldsymbol{w}\\ &=\int p(t|x,\boldsymbol{w},\mathbf{t}, \mathbf{x})p(\boldsymbol{w} | \mathbf{x}, \mathbf{t},x)\mathrm{d} \boldsymbol{w}\\&=\int p(t,\boldsymbol{w}|x,\mathbf{x}, \mathbf{t})\mathrm{d} \boldsymbol{w}\end{aligned} \]

第二个等式成立是因为

\[p(t | x, \boldsymbol{w}) =p(t|x,\boldsymbol{w},\mathbf{t}, \mathbf{x}) \]
\[p(\boldsymbol{w} | \mathbf{x}, \mathbf{t})=p(\boldsymbol{w} | \mathbf{x}, \mathbf{t},x) \]

在1.5.1节，给出了错误分类率的公式

\[\begin{aligned}p(\text { mistake }) &=p\left(\boldsymbol{x} \in \mathcal{R}_{1}, \mathcal{C}_{2}\right)+p\left(\boldsymbol{x} \in \mathcal{R}_{2}, \mathcal{C}_{1}\right) \\&=\int_{\mathcal{R}_{1}} p\left(\boldsymbol{x}, \mathcal{C}_{2}\right) \mathrm{d} \boldsymbol{x}+\int_{\mathcal{R}_{2}} p\left(\boldsymbol{x}, \mathcal{C}_{1}\right) \mathrm{d} \boldsymbol{x}\end{aligned} \]

书中直接给出结论，要使得错误分类率最小，应该分给后验概率$P(C_k|x)$最大的类别中。

推导过程如下：

对于最优的$\mathcal{R}_{1}, \mathcal{R}_{2}$，只要满足它的犯错概率小于其他所有的决策区域$\mathcal{R}_{1}’, \mathcal{R}_{2}’$下的犯错概率即可。

\[\begin{aligned}p'(\text { mistake }) &=p\left(\boldsymbol{x} \in \mathcal{R}_{1}’, \mathcal{C}_{2}\right)+p\left(\boldsymbol{x} \in \mathcal{R}_{2}’, \mathcal{C}_{1}\right) \\&=\int_{\mathcal{R}_{1}’} p\left(\boldsymbol{x}, \mathcal{C}_{2}\right) \mathrm{d} \boldsymbol{x}+\int_{\mathcal{R}_{2}’} p\left(\boldsymbol{x}, \mathcal{C}_{1}\right) \mathrm{d} \boldsymbol{x}\end{aligned} \]

对两个做差，得到

\[p(mistake)-p'(mistake) \\=\int_{\mathcal{R}_{1}\cap \mathcal{R}_{2}’ } (p\left(\boldsymbol{x}, \mathcal{C}_{2}\right) -p\left(\boldsymbol{x}, \mathcal{C}_{1}\right) )\mathrm{d} \boldsymbol{x}+\int_{\mathcal{R}_{2}\cap \mathcal{R}_{1}’ } (p\left(\boldsymbol{x}, \mathcal{C}_{1}\right) -p\left(\boldsymbol{x}, \mathcal{C}_{2}\right) )\mathrm{d} \boldsymbol{x} \]

那么我们只需要

$p\left(\boldsymbol{x}, \mathcal{C}_{2}\right) -p\left(\boldsymbol{x}, \mathcal{C}_{1}\right) \le0$在任意$\mathcal{R}_{1}\cap \mathcal{R}_{2}’$上成立。
$p\left(\boldsymbol{x}, \mathcal{C}_{1}\right) -p\left(\boldsymbol{x}, \mathcal{C}_{2}\right) \le0$在任意$\mathcal{R}_{2}\cap \mathcal{R}_{1}’$上成立。

由于$p\left(\boldsymbol{x}\right) $是相同的，上述两个公式等价于：

$p\left(\boldsymbol{x}| \mathcal{C}_{2}\right) -p\left(\boldsymbol{x}|\mathcal{C}_{1}\right) \le0$在任意$\mathcal{R}_{1}\cap \mathcal{R}_{2}’$上成立。
$p\left(\boldsymbol{x}| \mathcal{C}_{1}\right) -p\left(\boldsymbol{x}|\mathcal{C}_{2}\right) \le0$在任意$\mathcal{R}_{2}\cap \mathcal{R}_{1}’$上成立。

而任意$\mathcal{R}_{1}\cap \mathcal{R}_{2}’$其实就是$\mathcal{R}_{1}$，任意$\mathcal{R}_{2}\cap \mathcal{R}_{1}’$其实就是$\mathcal{R}_{2}$

所以最优的分配规则就是，如果$p\left(\boldsymbol{x}| \mathcal{C}_{2}\right) \le p\left(\boldsymbol{x}|\mathcal{C}_{1}\right)$就分配到第一类上，如果$p\left(\boldsymbol{x}| \mathcal{C}_{1}\right) \le p\left(\boldsymbol{x}|\mathcal{C}_{2}\right)$就分配到第二类上。

posted @ 2020-04-09 17:21 跑得飞快的凤凰花阅读(156) 评论(0) 编辑收藏举报

刷新页面返回顶部

跑得飞快的凤凰花

关于PRML Chap1的一丢丢附加证明

公告