所有输入法基本原理之"马尔科夫链"的扩展——贝叶斯网络

1.贝叶斯网络

          a.定义:
               将相互交叉、错综复杂的事情的关系图描述为一个网络,每个圆圈代表一个状态(事情),圆圈间的连线为两者间的关系,假设马尔科夫假设成立,即每一个状态只和它直接相连的状态有关,和间接相连的状态没有直接关系,那么此网络成为贝叶斯网络
     
          b.可信度:
               两个状态间量化的权重,马尔科夫假设保证了贝叶斯网络(贝叶斯公式)便于计算;由于每个弧都有可信度,因此贝叶斯网络也称作信念网络
 
          c.模型计算:
               i.关系:其拓扑结构比马尔科夫链灵活,不受马尔科夫链状结构的约束,可以描述事物间更加复杂的相关性;马尔科夫链是贝叶斯网络的特例,贝叶斯网络是马尔科夫链的推广
               ii.其模型的计算分为结构训练和参数训练
               iii.茨威格和比尔默开发了工具包
 
2.贝叶斯网络在词分类中的应用:
          a.文本分类方法:
               i.文本和关键词的关联矩阵的奇异值分解
               ii.文本特征向量的余弦距离的聚类
 
          b.词分类:
               i.将文本和关键词的关联矩阵转置90°,进行奇异值分解
               ii.或者对每个此以文本作为维度,建立向量,再聚类
               iii.得到对词的一个分类,我们成为一个概念
                    
               vi.关键词的相似性应考虑在上下文中同现和不同粒度
 
3.贝叶斯网络的训练:
          a.结构的确定:
               i.满足的条件:产生的序列从头走到尾的概率最大,即后验概率最大
               ii.方法:完备搜索(考虑每条路径)-->贪婪算法(局部最优)-->蒙特卡罗方法(用许多随机数测试局部最优是否是全局最优)-->信息论方法(计算节点两两间的互信息,保留互信息较大的节点直接相连,再对简化的网络进行完备搜索)
          b.权重的确定:
               i.优化网络的参数,使观察到的这些数据的后验概率最大,前面介绍的EM过程                    
               ii.后验概率是计算条件X和结果Y间的联合概率P(X,Y),训练数据会提供一些P(X,Y)的限制条件,而最后的模型必须满足这些限制条件
               iii.结构和参数的训练是交替进行的
posted @ 2017-01-16 15:33  成金之路  阅读(1383)  评论(0编辑  收藏  举报