关于PRML Chap1的一丢丢附加证明

在第一章的1.2.6节,有公式(1.68)

\[p(t | x, \mathbf{x}, \mathbf{t})=\int p(t | x, \boldsymbol{w}) p(\boldsymbol{w} | \mathbf{x}, \mathbf{t}) \mathrm{d} \boldsymbol{w} \]

这个公式实际上是在贝叶斯框架下对回归\(t=y(x,w)\)进行推断,即给出了新的\(x\)(注意粗体的区别,\(\mathbf{x}\)是测试集的样本,这部分信息是已知的)下,我们对t的后验概率进行推断。

从读MLAPP的时候就对这个公式有点疑惑,虽然书中一笔带过,但是小白的我决定自己推导一番:

\[LHS=p(t | x, \mathbf{x}, \mathbf{t})=\int p(t,\boldsymbol{w}|x,\mathbf{x}, \mathbf{t})d\boldsymbol{w} \]

\[\begin{aligned}RHS&=\int p(t | x, \boldsymbol{w}) p(\boldsymbol{w} | \mathbf{x}, \mathbf{t})\mathrm{d} \boldsymbol{w}\\ &=\int p(t|x,\boldsymbol{w},\mathbf{t}, \mathbf{x})p(\boldsymbol{w} | \mathbf{x}, \mathbf{t},x)\mathrm{d} \boldsymbol{w}\\&=\int p(t,\boldsymbol{w}|x,\mathbf{x}, \mathbf{t})\mathrm{d} \boldsymbol{w}\end{aligned} \]

第二个等式成立是因为

  • \[p(t | x, \boldsymbol{w}) =p(t|x,\boldsymbol{w},\mathbf{t}, \mathbf{x}) \]

  • \[p(\boldsymbol{w} | \mathbf{x}, \mathbf{t})=p(\boldsymbol{w} | \mathbf{x}, \mathbf{t},x) \]

在1.5.1节,给出了错误分类率的公式

\[\begin{aligned}p(\text { mistake }) &=p\left(\boldsymbol{x} \in \mathcal{R}_{1}, \mathcal{C}_{2}\right)+p\left(\boldsymbol{x} \in \mathcal{R}_{2}, \mathcal{C}_{1}\right) \\&=\int_{\mathcal{R}_{1}} p\left(\boldsymbol{x}, \mathcal{C}_{2}\right) \mathrm{d} \boldsymbol{x}+\int_{\mathcal{R}_{2}} p\left(\boldsymbol{x}, \mathcal{C}_{1}\right) \mathrm{d} \boldsymbol{x}\end{aligned} \]

书中直接给出结论,要使得错误分类率最小,应该分给后验概率\(P(C_k|x)\)最大的类别中。

推导过程如下:

对于最优的\(\mathcal{R}_{1}, \mathcal{R}_{2}\),只要满足它的犯错概率小于其他所有的决策区域\(\mathcal{R}_{1}’, \mathcal{R}_{2}’\)下的犯错概率即可。

\[\begin{aligned}p(\text { mistake }) &=p\left(\boldsymbol{x} \in \mathcal{R}_{1}, \mathcal{C}_{2}\right)+p\left(\boldsymbol{x} \in \mathcal{R}_{2}, \mathcal{C}_{1}\right) \\&=\int_{\mathcal{R}_{1}} p\left(\boldsymbol{x}, \mathcal{C}_{2}\right) \mathrm{d} \boldsymbol{x}+\int_{\mathcal{R}_{2}} p\left(\boldsymbol{x}, \mathcal{C}_{1}\right) \mathrm{d} \boldsymbol{x}\end{aligned} \]

\[\begin{aligned}p'(\text { mistake }) &=p\left(\boldsymbol{x} \in \mathcal{R}_{1}’, \mathcal{C}_{2}\right)+p\left(\boldsymbol{x} \in \mathcal{R}_{2}’, \mathcal{C}_{1}\right) \\&=\int_{\mathcal{R}_{1}’} p\left(\boldsymbol{x}, \mathcal{C}_{2}\right) \mathrm{d} \boldsymbol{x}+\int_{\mathcal{R}_{2}’} p\left(\boldsymbol{x}, \mathcal{C}_{1}\right) \mathrm{d} \boldsymbol{x}\end{aligned} \]

对两个做差,得到

\[p(mistake)-p'(mistake) \\=\int_{\mathcal{R}_{1}\cap \mathcal{R}_{2}’ } (p\left(\boldsymbol{x}, \mathcal{C}_{2}\right) -p\left(\boldsymbol{x}, \mathcal{C}_{1}\right) )\mathrm{d} \boldsymbol{x}+\int_{\mathcal{R}_{2}\cap \mathcal{R}_{1}’ } (p\left(\boldsymbol{x}, \mathcal{C}_{1}\right) -p\left(\boldsymbol{x}, \mathcal{C}_{2}\right) )\mathrm{d} \boldsymbol{x} \]

那么我们只需要

  • \(p\left(\boldsymbol{x}, \mathcal{C}_{2}\right) -p\left(\boldsymbol{x}, \mathcal{C}_{1}\right) \le0\)在任意\(\mathcal{R}_{1}\cap \mathcal{R}_{2}’\)上成立。

  • \(p\left(\boldsymbol{x}, \mathcal{C}_{1}\right) -p\left(\boldsymbol{x}, \mathcal{C}_{2}\right) \le0\)在任意\(\mathcal{R}_{2}\cap \mathcal{R}_{1}’\)上成立。

由于$p\left(\boldsymbol{x}\right) $是相同的,上述两个公式等价于:

  • \(p\left(\boldsymbol{x}| \mathcal{C}_{2}\right) -p\left(\boldsymbol{x}|\mathcal{C}_{1}\right) \le0\)在任意\(\mathcal{R}_{1}\cap \mathcal{R}_{2}’\)上成立。

  • \(p\left(\boldsymbol{x}| \mathcal{C}_{1}\right) -p\left(\boldsymbol{x}|\mathcal{C}_{2}\right) \le0\)在任意\(\mathcal{R}_{2}\cap \mathcal{R}_{1}’\)上成立。

而任意\(\mathcal{R}_{1}\cap \mathcal{R}_{2}’\)其实就是\(\mathcal{R}_{1}\),任意\(\mathcal{R}_{2}\cap \mathcal{R}_{1}’\)其实就是\(\mathcal{R}_{2}\)

所以最优的分配规则就是,如果\(p\left(\boldsymbol{x}| \mathcal{C}_{2}\right) \le p\left(\boldsymbol{x}|\mathcal{C}_{1}\right)\)就分配到第一类上,如果\(p\left(\boldsymbol{x}| \mathcal{C}_{1}\right) \le p\left(\boldsymbol{x}|\mathcal{C}_{2}\right)\)就分配到第二类上。

posted @ 2020-04-09 17:21  跑得飞快的凤凰花  阅读(156)  评论(0编辑  收藏  举报