前面假定超参数imageimage 是已知的,实际上这不太可能,只是有些情况下对噪声水平image有些了解。我们也知道,正确的贝叶斯方法在处理这些未知参数时,就是对它们积分,这样最终预测函数就与它们无关了。例如,网络权重的后验分析计算方法如下

                  image    (1)

 

要解上面问题,方法还是那两种套路:1)解析方法:通过积分直接计算式1。留到本章第5节来介绍;2)近似方法:MacKay(1992a,1992d)研究此问题。这里先学习一下后者。

1)假设imageimage 附近呈现尖峰状,这样式1可近似为下式。也就是说,先求解image找到imageimage 的最大后验概率值image,然后直接带入下式计算。

          image    (2)

2)那么image怎么求呢,还是利用贝叶斯准则构造下式求解。注意,这里要选择合适的先验image ,因为它代表了超参数的先验,因此也称为超先验(hyperprior)。

          image             (3)

 

上面介绍了大体流程,下面介绍image具体怎么求。

1)首先,如何选择先验image呢?当没有任何概念时,选择的先验要所有参数值重要度相同,称为无信息先验。实际上,imageimage 是尺度参数(scale parameters),因为它们分别决定image 和噪声的尺度。这里,因为没有不知道什么值合适,因此假设超先验imageimageimage值不敏感。

2)其次,由于式3中分母与超参无关,因此image可通过最大化image 得到。image也称为imageimage 的置信度(evidence)。

 

到此,大家是不是能体会到一点层次化求解的意思呢?第一层求权重的分布(式1);第二层求超参的分布;且第二层中的置信度image是前一层贝叶斯公示中的分母。这种结构就是一个层次化模型(hierarchical models,这其实也是目前很热的Graphical Modes研发方向搞的内容。

 

那么image怎么求?首先构建它的表达式

1)首先有下式(这里利用了权重先验与image无关,似然与image无关的信息)

                  image          (4)

2)利用前面介绍的下面几个式子

      权重先验的指数形式image

      似然分布的指数形式      image

      以及 imageimage

带入式4得

          image

其中image 在选定的先验和噪声模型下的解也在前面讨论过了image  ;  image

若利用高斯近似权重的后验分布,那么image

3)得到置信度的log

                 image    (5)

 

到此,image表达式的推导完,应该说是很复杂的,具体怎么求?

首先考虑对image求解,以找到最大值。

1)求imageimage的微分

     A)A可写为image ,其中image 是非正则化误差函数的赫森矩阵;

     B)若 H的特征值为image,则A的特征值为image

     C)从而,有

           image image    (6)

     注意:这里假设特征值image 不依赖于image

          a)image 是权重的二次函数(如线性网络,误差为SSE)时,赫森矩阵是常数,上面假设成立,式6正确。

          b)对于非线性网络,赫森阵是权重的函数。因为赫森阵是在image 处计算,而image 依赖于image,那么上面假设不成立。式6不

              正确,因为它忽略了image

     D)在上面假设下,式5对image的最大值解为

             image     (7)

             image    (8)

对于上的结果,前人(Gull, 1989).已经给出了简单优美的解释:最大可能权重image的值代表了在多大程度上权重值来自于数据中的信息,没有任何数据时,image =0。。假设特征值为正,那么image 取值范围为(0,1)。它的几何解释为:旋转权重空间左边轴,以与赫森矩阵H的特征向量方向对齐。示意图1,圆环代表image 的等高线(对应先验piror),椭圆代表image 的等高线(对应似然likelihood)

1)在image 的方向上(图1中W1方向):式8中求和项接近于1;权重主要由数据决定。

2)在image 的方向上(图1中W2方向):式8中求和项主要由image决定;权重主要由先验决定。

                          image 图1

3)因此image 度量了有效权重的个数,这些权重的值由数据决定而不是先验,因此也称为well-determined parameters

 

接下来研究imageimage 求解以找到最大值的问题。

1)因为imageimage 特征值,因此它与image成比例,即满足image ,从而有

        image      (8)

2)上面的东东会使式5在最大值处满足如下条件

       image       (9)

3)由image 及式7和式9可知,总误差S(w)在image处满足image

 

到此,所有的分析都利用单高斯分布来近似权重的后验分布。这并不足够合理,因为对应非线性网络其正则化误差S(w)会有很多极小值。MacKay(1992d)采用的方法,是选择一系列特殊的权重image来预测,它们对应于S(w)的特殊的极小点。因此,可以选取合适的imageimage值(不同的极小点可能会要求不同的值)。这时,式4的积分就不是对整个权重空间进行的,而是对这些极小点领域范围进行积分。

上面的思想很好,具体如何实现呢,即如何找到最优imageimage以及image?一个简单的方法就是迭代求解,由式7和9有

             image

 

这里,进一步利用Chap10第3节中图3的例子来讲述另一种方法,即利用置信度方法(evidence approach)来确定imageimage,见图2和图3。对比两图,可发现:

1)置信度的最大值近似发生在满足image 的地方

2)注:两图中image设为其真值;image值是通过利用精确解析方法(exact analytical  methods)计算赫森矩阵,然后找到其特征值谱而得到的。

              image                                          image

   图2(横坐标是lna,横线对应r,曲线对应imageimage设为其真值)           图3(横坐标是lna,曲线是a的logevidence(lnp(D|a)),image设为其真值)

得到最大化置信度的imageimage值之后,就可以构造置信度image 的高斯近似。

 

 

 

 

  •    

posted on 2011-01-16 10:43  Tony Ma  阅读(1835)  评论(0编辑  收藏  举报