【关键词提取】第四篇:候选词生成(上)
原文地址:http://www.cnblogs.com/lessmore/category/1009890.html 转载请保留本行,欢迎交流。
目录:
这里使用的方法是词性标注配合模式匹配,提取名词短语。通常来说一个句子的单词会聚合成组块(chunking)短语,例如常见的名词短语组块,动词组块等。查看标注的数据集发现,大部分关键词都是名词短语组块,可以通过规则进行模式匹配高效提取这类关键词。下面将分别叙述词性标注和本文中使用的规则。
词性标注就是给每个单词标注为名词、动词、副词等词性。对英文来说,不存在分词的问题,由标点符号分割的每个字符串自然是一个单词。英文中单词存在一些有规则的变化,例如名词单复数,动词时态等,这部分对于词性标注很好解决。还有部分单词有不同的词性,例如“process”既可以是名词,也可以是动词,需要根据上下文信息消除歧义。传统上,词性标注有基于规则和基于统计的方法。目前基于统计的方法,包括隐式马尔可夫模型、最大熵模型等标注的准确率都超过95%,我们可以放心直接使用流行的词性标注工具,词性标注错误几乎不会影响关键词提取的性能。
本文提取名词性短语使用的正则规则是:NP=(NN│JJ)(NN)。其中NN匹配名词单复数,专有名词单复数,JJ匹配形容词及其比较级、最高级。这条规则是经验性的结论,对于为什么不加入匹配冠词、副词等问题无法一一做出合理的解释,这是实验中考虑到平衡候选词数目和召回率选取的规则。
使用规则匹配名词短语在本文中有良好地效果,后文中会有性能指标展示,但不可避免的有巨大的局限性。首先是本文所用数据集的特点,文本短,关键词数量多,并且关键词大部分是名词性短语,这对于组块提取方法有得天独厚的优势。如果文本是通常的长文本,候选词的数目会线性增长,在通常意义下的关键词数目较少的情况下会引入更多干扰误差。其次,规则提取名词性短语不适合提取其他类型的组块,如果加入匹配介词或者动词,匹配得到的结果几乎能覆盖整个文档,造成候选词数量膨胀,带来的误差远远高于所召回寥寥无几的动词短语。由此可以看出使用词性标注模式匹配无法处理更复杂的关键词类型,也无法推广至一般的关键词自动提取场景。