欢迎访问『www.cnblogs.com/blog-ice』

第一章 文字和语言vs数字和信息

  通信原理:产生、传播、接收、反馈

  信息传播模型:信息----(编码)-----信息----(解码)-----信息

  (信源)编码和最短编码:常用字短、生僻字长

  解码的规则,语法:语法是语言的编码和解码的规则

  聚类:概念的概括和归类,文字的聚类带来一些歧义性

  校验位:校验信息是否正确

  双语对照文本,语料库和机器翻译

  多义性和利用上下午消除歧义性

 

第二章 自然语言处理 从规则到统计

  1956年达特茅斯夏季人工智能研究会:

    28岁约翰•麦卡锡(图灵奖获得者)

    28岁马文•明斯基(图灵奖获得者)

    37岁罗切斯特

    40岁香农(信息论的发明人)

    40岁赫伯特•西蒙(图灵奖获得者)

    28岁艾伦•纽维尔(图灵奖获得者)

    会议讨论:人工智能、自然语言处理和神经网络等

 

第三章 统计语言模型

  贾里尼克的出发点很简单:一个句子是否合理,就看它的可能性大小,可能性用概率来衡量

  S表示一个有意义的句子

  w1,w2,...,wn表示一连串特定顺序排列的词,n表示句子的长度

  S在文本中出现的可能性就是数学上所说的S的概率P(S)

  既然S=w1,w2,...,wn

  P(S) = P(w1,w2,...,wn)

  利用条件概率公式:S这个序列出现的概率等于每一个词出现的条件概率相乘

  P(w1,w2,...,wn) = P(w1).P(w2|w1).P(w3|w1,w2)...P(wn|w1,w2,w2,...,wn-1)

  条件概率

  是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:P(A|B),读作“在B的条件下A的概率”。若只有两个事件A,B,那么,

    
  联合概率
  表示两个事件共同发生的概率。AB联合概率表示为 P(AB) 或者P(A,B),或者P(A∩B)。
  马尔科夫假设:假设任意一个wi词出现的概率只用它前面的词wi-1有关
  P(S) = P(w1).P(w2|w1).P(w3|w2)...P(wn|wn-1)
  根据大数定理,只要统计量足够,相对频度就等于概率
  P(wn-1,wn) ≈ #(wn-1,wn) / #
  P(wn-1) ≈ #(wn-1) / #
  P(wn|wn-1) = #(wn-1,wn) / #(wn-1)
  高阶语言模型
  假设文本中的每次wi和前面N-1个词有关,而与更前面的词无关
  P(wi|w1,w2,w2,...,wi-1) = P(wi|wi-N+1,wi-N+2,...,wi-1)    这种假设称为N-1阶马尔科夫假设,对应的语言模型称为N元模型
  古德-图灵估计原理:对于没有看见的事件,我们不能认为它发生的概率就是零,因此我们从概率总量中,分配一个很小的比例给这些没有看见的事件
     
    

            

  其中T是一个阈值,一般在8-10左右,fgt表示经过古德-图灵估计后的相对频度。

  
第四章 谈谈分词
  
第五章 隐含马尔科夫模型
  
 

 

  

 

posted on 2019-02-15 10:42  仙路尽头谁为峰  阅读(219)  评论(0编辑  收藏  举报
这里是自由发挥的天堂