【NLP】

一 语法解析

  • 语法的存储表达方式:
    1 (S (NP (N Boeing)) (VP (V is) (VP (V located) (PP (P in) (NP (N Seattle))))))。
    2 S代表句子
    3 NP,VP,PP分别是名词短语,动词短语,介词短语
    4 S,V,P分别是名,动,介词
  • 语法解析的算法:

如何表示一个句子中的语法,定义如下一些规则及变量

  1. 1)N表示一组非叶子节点的标注,例如{S、NP、VP、N...}
    
    2)Σ表示一组叶子结点的标注,例如{boeing、is...}
    
    3)R表示一组规则,每条规则可以表示为X->Y1Y2...Yn,X∈N,Yi∈(N∪Σ)
    
    4)S表示语法树开始的标注

    如上表示右边语法树 

如上叫做上下文无关的语法,从这些语法定义可以推导出这个句子的语法格式。

可是这种定义有个问题,有些单词有多词性,同时规则中,NP-PP PP,这种,第二个pp到底修饰PP还是修饰NP未知。

     由此用概率分布的上下文无关语法。给每条规则给出一个概率。由此得到概率和最大的结果就是语法树的最佳结果。

  • 语法解析的方法: 训练,识别
  • 训练阶段:从一个大语料库,一般是penn treebank这种类型,其中已经定义了语法格式,从中提取语法规则,统计每种规则的概率。
  • 识别阶段(预测阶段):对于要解析的句子,根据已经训练模型中的参数。给出语法树(暴力遍历,动态规划。待深解)

 

posted @ 2016-02-04 16:31  luoyinqq  阅读(491)  评论(0编辑  收藏  举报