NNPR-Chap10 贝叶斯技术（3）分类

考虑两类问题。数据的似然函数为

（1），G是交叉熵误差函数

选择logistic sigmoid为输出激励函数，。这种激励函数可将网络输出解释为x属于类的概率。

然后同前面一样，贝叶斯框架下对分类问题处理步骤也是三步：

1）权重先验：基于正则化项引入网络权重先验

2）权重的后验：基于1）可推出，同样可以通过中心在的单高斯分布近似

（2）

3）输出的分布：x属于类C1的概率通过对权重分布的积分得到

（3）

但是分类和回归问题中处理细节稍有不同：

1）回归问题：网络输出是均值为的高斯分布，这样式（3）的预测结果就等于直接采用进行预测的结果（条件是后验概率足够窄，这样可将y近似为附近的权重W的线性函数

2）分类问题：由于采用sigmoid为输出激励函数，因此无法将y近似为权重W的线性函数。

由于上面的区别，在分类中，按式（2）进行积分时需要进行重要变化。具体有哪些变化呢？

1）因为y无法近似处理，所以要摆弄的对象就变了。MacKay (1992b)假设a（而不是y）是一个关于权重的局部线性函数

，

a的分布为

，是Dirac delta function

2）权重后验概率采用式（2）。因为要求与a是线性的，且权重后验是高斯的，因此a的分布也是高斯分布

，

3）从而得到

（4）

4）由于式（4）无解析解，MacKay (1992b)建议采用下面的近似

，，

到这里，学到两中分类方法

1）通过式4积分得到的分类结果，

2）通过取权重为某一固定值时，直接进行分类。如取权重为得到的分类结果

关键是需要进一步思考这两种方法有什么本质区别。Show图来点直观的感受吧。

图1:权重后验概率分布示意图图2：单层、输出为logistic sigmoid函数神经网络的输出等高线（同条线上输出相同）

1）图2-(a)：对应采用分类方法2，且中权重为图1中网络的决策面。三条线对应输出为0.1，0.5和0.9时的决策面。点C（新数据）远离训练数据区域，且其被分类是具有较高置信度（0.9）

2）图2-(b和c)：对应采用分类方法2，且中权重为图1中权重为W1和W2网络的决策面。注意，此时点C被分为不同类别。

3）图2-(d)：对应采用分类方法1，通过对整个权重空间积分进行分类。注意，等高线在数据点少的地方向远处延伸，且此时点C赋给某类概率值为0.5（这才是所期望的结果）

4）图2中d和c图中决策边界（对应中间y=0.5的那条线）是相同的

posted on 2010-11-18 16:16 Tony Ma 阅读(561) 评论(0) 编辑收藏举报

刷新页面返回顶部

公告