Discourse(我不知道怎么翻译)
Discourse
之前介绍的NLP任务大多是研究词汇句式,其实还有很多NLP任务是为了解决文档document级别的问题,为了更好地理解句子之间是怎么组合成文档的。
三个主要任务
1. Discourse segmentation
我们知道一篇文档的内容往往是有几个部分通过一些衔接部分组合起来的,比如段落。那么如何使用机器学习的方法来根据含义自动分割文档呢?最简单的方法就是依次比较两句相邻的句子的相似度,分割点往往就产生在相似度最低的地方,这种非监督的方法叫做Text Tiling。当然,也可以采用监督学习的方法,如构造分类器或是序列模型来检测分割点。
2. Discourse parsing
常用的解析Discourse的框架有Rhetorical Structure Theory (RST)框架,
对英语来说,常见的RST关系有conjuction, justify, concession, elaboration等,如下图所示,
那么问题来了,怎么去寻找这些关系呢?一种最直接的方法就是基于规则,如根据一些标志性的词(but,so,for example,etc.),另一种方法就是使用机器学习,常用的特征有Bag of words,Discourse markers,Starting/ending n-grams,Location in the text,Syntax features,Lexical and distributional similarities。
3. Anaphora resolution
这个任务就是要解决指代问题,比如后文出现的“他”具体指的是谁。解决这个问题的一个方法是Centering Algorithm,通过寻找Forward-lookingcenters匹配Backward-lookingcenter。
也可以采用一些分类的方法,并把限制条件和要求加入到特征中,如
‣ Binary features for number/gender compatibility
‣ Position of antecedent in text
‣ Include features about type of antecedent