在第一章的1.2.6节,有公式(1.68)
\[p(t | x, \mathbf{x}, \mathbf{t})=\int p(t | x, \boldsymbol{w}) p(\boldsymbol{w} | \mathbf{x}, \mathbf{t}) \mathrm{d} \boldsymbol{w}
\]
这个公式实际上是在贝叶斯框架下对回归\(t=y(x,w)\)进行推断,即给出了新的\(x\)(注意粗体的区别,\(\mathbf{x}\)是测试集的样本,这部分信息是已知的)下,我们对t的后验概率进行推断。
从读MLAPP的时候就对这个公式有点疑惑,虽然书中一笔带过,但是小白的我决定自己推导一番:
\[LHS=p(t | x, \mathbf{x}, \mathbf{t})=\int p(t,\boldsymbol{w}|x,\mathbf{x}, \mathbf{t})d\boldsymbol{w}
\]
而
\[\begin{aligned}RHS&=\int p(t | x, \boldsymbol{w}) p(\boldsymbol{w} | \mathbf{x}, \mathbf{t})\mathrm{d} \boldsymbol{w}\\ &=\int p(t|x,\boldsymbol{w},\mathbf{t}, \mathbf{x})p(\boldsymbol{w} | \mathbf{x}, \mathbf{t},x)\mathrm{d} \boldsymbol{w}\\&=\int p(t,\boldsymbol{w}|x,\mathbf{x}, \mathbf{t})\mathrm{d} \boldsymbol{w}\end{aligned}
\]
第二个等式成立是因为
-
\[p(t | x, \boldsymbol{w}) =p(t|x,\boldsymbol{w},\mathbf{t}, \mathbf{x})
\]
-
\[p(\boldsymbol{w} | \mathbf{x}, \mathbf{t})=p(\boldsymbol{w} | \mathbf{x}, \mathbf{t},x)
\]
在1.5.1节,给出了错误分类率的公式
\[\begin{aligned}p(\text { mistake }) &=p\left(\boldsymbol{x} \in \mathcal{R}_{1}, \mathcal{C}_{2}\right)+p\left(\boldsymbol{x} \in \mathcal{R}_{2}, \mathcal{C}_{1}\right) \\&=\int_{\mathcal{R}_{1}} p\left(\boldsymbol{x}, \mathcal{C}_{2}\right) \mathrm{d} \boldsymbol{x}+\int_{\mathcal{R}_{2}} p\left(\boldsymbol{x}, \mathcal{C}_{1}\right) \mathrm{d} \boldsymbol{x}\end{aligned}
\]
书中直接给出结论,要使得错误分类率最小,应该分给后验概率\(P(C_k|x)\)最大的类别中。
推导过程如下:
对于最优的\(\mathcal{R}_{1}, \mathcal{R}_{2}\),只要满足它的犯错概率小于其他所有的决策区域\(\mathcal{R}_{1}’, \mathcal{R}_{2}’\)下的犯错概率即可。
\[\begin{aligned}p(\text { mistake }) &=p\left(\boldsymbol{x} \in \mathcal{R}_{1}, \mathcal{C}_{2}\right)+p\left(\boldsymbol{x} \in \mathcal{R}_{2}, \mathcal{C}_{1}\right) \\&=\int_{\mathcal{R}_{1}} p\left(\boldsymbol{x}, \mathcal{C}_{2}\right) \mathrm{d} \boldsymbol{x}+\int_{\mathcal{R}_{2}} p\left(\boldsymbol{x}, \mathcal{C}_{1}\right) \mathrm{d} \boldsymbol{x}\end{aligned}
\]
\[\begin{aligned}p'(\text { mistake }) &=p\left(\boldsymbol{x} \in \mathcal{R}_{1}’, \mathcal{C}_{2}\right)+p\left(\boldsymbol{x} \in \mathcal{R}_{2}’, \mathcal{C}_{1}\right) \\&=\int_{\mathcal{R}_{1}’} p\left(\boldsymbol{x}, \mathcal{C}_{2}\right) \mathrm{d} \boldsymbol{x}+\int_{\mathcal{R}_{2}’} p\left(\boldsymbol{x}, \mathcal{C}_{1}\right) \mathrm{d} \boldsymbol{x}\end{aligned}
\]
对两个做差,得到
\[p(mistake)-p'(mistake) \\=\int_{\mathcal{R}_{1}\cap \mathcal{R}_{2}’ } (p\left(\boldsymbol{x}, \mathcal{C}_{2}\right) -p\left(\boldsymbol{x}, \mathcal{C}_{1}\right) )\mathrm{d} \boldsymbol{x}+\int_{\mathcal{R}_{2}\cap \mathcal{R}_{1}’ } (p\left(\boldsymbol{x}, \mathcal{C}_{1}\right) -p\left(\boldsymbol{x}, \mathcal{C}_{2}\right) )\mathrm{d} \boldsymbol{x}
\]
那么我们只需要
-
\(p\left(\boldsymbol{x}, \mathcal{C}_{2}\right) -p\left(\boldsymbol{x}, \mathcal{C}_{1}\right) \le0\)在任意\(\mathcal{R}_{1}\cap \mathcal{R}_{2}’\)上成立。
-
\(p\left(\boldsymbol{x}, \mathcal{C}_{1}\right) -p\left(\boldsymbol{x}, \mathcal{C}_{2}\right) \le0\)在任意\(\mathcal{R}_{2}\cap \mathcal{R}_{1}’\)上成立。
由于$p\left(\boldsymbol{x}\right) $是相同的,上述两个公式等价于:
-
\(p\left(\boldsymbol{x}| \mathcal{C}_{2}\right) -p\left(\boldsymbol{x}|\mathcal{C}_{1}\right) \le0\)在任意\(\mathcal{R}_{1}\cap \mathcal{R}_{2}’\)上成立。
-
\(p\left(\boldsymbol{x}| \mathcal{C}_{1}\right) -p\left(\boldsymbol{x}|\mathcal{C}_{2}\right) \le0\)在任意\(\mathcal{R}_{2}\cap \mathcal{R}_{1}’\)上成立。
而任意\(\mathcal{R}_{1}\cap \mathcal{R}_{2}’\)其实就是\(\mathcal{R}_{1}\),任意\(\mathcal{R}_{2}\cap \mathcal{R}_{1}’\)其实就是\(\mathcal{R}_{2}\)
所以最优的分配规则就是,如果\(p\left(\boldsymbol{x}| \mathcal{C}_{2}\right) \le p\left(\boldsymbol{x}|\mathcal{C}_{1}\right)\)就分配到第一类上,如果\(p\left(\boldsymbol{x}| \mathcal{C}_{1}\right) \le p\left(\boldsymbol{x}|\mathcal{C}_{2}\right)\)就分配到第二类上。