【关键词提取】第三篇:特征设计
原文地址:http://www.cnblogs.com/lessmore/category/1009890.html 转载请保留本行,欢迎交流。
目录:
特征是用在监督学习中表示一个关键词的属性。机器学习模型不能仅仅根据候选词自身判断是否是关键词,需要更多的信息。没有统一准确的定义特征应该是什么,根据直觉和经验我们可以利用的特征很多。本文研究中,将关键词的特征分为以下几组:短语特征,统计特征,上下文特征,外部资源特征和无监督学习特征。另外还有结构性特征,例如网页文档中标题,URL等结构包含的短语更重要,但是对于本文处理的文本不适用不做讨论。
3.1 短语特征
短语特征是指观察关键词自身可以得到的特征。很多情况下我们可以根据候选词的长度,词性标注等属性做出判断是否可能是关键词。这一类特征我们也可以通过规则筛选候选词,但利用机器学习模型在训练集上学习,可以避免主观判断错误。本类特征包含以下部分:
1.短语长度
这里的短语长度是指关键词中词的数量,比如关键词 “machine learning”的长度为2。不同领域中关键词的短语长度变化很大,新闻可能较短,科技论文的关键词可能是一个很长的复合词。即便是本文关注的科技论文领域,关键词的长度仍然变化幅度较大,从单个单词到长度超过10的短语均有标注。我们无法凭直觉处理短语长度特征乃至短语特征这类特征,但这可以作为描述关键词的一个属性送入机器学习的特征集合。
2.POS
POS是指对关键词作词性标注得到的标注序列。可以从词性标注序列得到很多有用的信息,例如完全有名词构成的短语,或者以诸如介词结尾这种不完整的短语不可能是关键词短语。
3.词干
英文中的词干是指一个单词在变化中不改变的部分。例如常见的名词单复数,形容词的比较级、最高级,动词的时态变化。使用词干可以消除不必要的干扰,增加关键词的准确性。
4.大小写
这里的大小写特征特定作用于英文文档中。英文中除了句首首字母大写外,专有名词会全部大写或者首字母大写。本文区分以下几类作为特征:短语各单词首字母均大写,全部大写或全部小写。
5.特殊符号
特殊符号是指除英文大小写字母以外的字母,包括标点符号,以及科技文献中常见的希腊字母。通常来说特殊符号越多,越不可能是关键词。考虑到完全是特殊符号的短语可能是专有名词,也可能是关键词。
3.2 统计特征
统计特征是对整个训练集和当前文本统计各单词得到的特征,而不能仅仅通过处理短语得到。主要是短语频率和TF*IDF等特征,分别描述如下:
1.短语频率(Term Frequency)
关键词的频率是衡量一个单词是否重要的显著特征。对于某个特定文件的词语t_i来说,它的词频计算公式为:
上式中\(n_{i,j}\)是该词在文件d_j中出现的次数,而在分母是文件\(d_j\)中所有字词出现的次数和。虽然关键词不等价于高频短语,但通常认为词频越高,成为关键词可能性越大。另一方面考虑到冠词、介词等虚词出现频率虽然高,却没有实际含义,这就是下面逆文档频率处理的情形。
2.TFIDF
TFIDF统计方法,用于评估一个字词对于一个文件集或一个语料库中的一份文件的重要程度 [2]。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF*IDF常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。在本文的关键词自动提取中,可以用作衡量词的重要程度,与关键词的定义十分契合。
逆文档频率(inverse document frequency, IDF)是衡量一个词语普遍重要性的度量。某一特定词语的IDF,计算公式如下:
上式中\(|D|\)表示语料库的文件总数,分母表示包含词语\(t_i\)的文件数目,注意入宫词语不在语料库中会导致分母为零。然后可以计算TF*IDF值:
可见某一文件内的高频短语,并且该短语是整个语料库中的低文件频率,才会产生高权重的TFIDF。
TFIDF算法是创建在这样的假设上:对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点。另外考虑到单词区别不同类别的能力,TF*IDF法认为一个单词出现的文本频率越小,它区别不同类别文本的能力就越大。因此引入了逆文本频度IDF的概念,以TF和IDF的乘积作为特征空间坐标系的取值测度,并用它完成对权值TF的调整,调整权值的目的在于突出重要单词,抑制次要单词。
在本文的系统中存在另外一个问题,训练的语料库较少,统计得到的IDF无法准确衡量短语真实值,可能恰好训练集中包含相关主题的多篇文章,使得IDF降低,因此使用外部知识求出的IDF更可靠。
3.3 上下文特征
上下文特征是对关键词在文本中的特征,例如出现的位置等,通常出现在文档开头的短语较中间才出现的词更重要。这类特征分别描述如下:
1.前后特征
前后特征是指在包围关键词前后的单词特征。通常关键词位于句首或者句尾,前后的的词有明显的分界线,本文中加入了前后单词以及词性标注结果作为特征,来区分关键词的边界。
2.位置特征
即关键词第一次在文档中出现的位置。通常来说,关键词会出现在文章起始部分,对对长文档来说更是如此。本文中处理的文档长度较短,文档开头没有综述性的论述,位置特征的效果可能会弱化。另外关键词第一次出现和最后一次出现的距离跨度也是一个重要指标,因为关键词通常会贯穿全文,跨度较长,这点同样对长文档更有效。
3.引用特征
引用特征是指关键词与最近出现引用的距离。严格来讲,这应该属于文本的结构性特征,而对于科技论文而言,引用具有统一的格式,形如方括号包括的数字,例如“[1]”,夹杂在文本中间。通常引用的内容是简练概括的,与关键词关系密切。
3.4 外部资源特征
外部资源特征是在训练数据集之外获取的特征。利用庞大的外部知识可以提高关键词提取性能。通常我们可以利用维基百科的文档计算词频,逆文档频率等,也可以使用一些已有的人工标注数据,或者利用搜索引擎的查询日志。下面我们介绍本文使用的外部数据集:
1.IEEE taxonomy列表
IEEE taxonomy 维护了一份详细的按领域短语列表。我们可以把出现在这个列表中的短语视作关键词,也可以将候选词是否出现在列表中当作一维特征。
2.维基百科
维基百科是开放性百科全书协作网站,中包含了数量巨大,涉及领域范围广的数据集,英文条目超过五百万条。我们可以利用该数据计算逆文档频率,能更好的刻画一个词的常见程度,效果远远高于我们极为有限的标注数据。
3.GLOVE训练的词向量
词向量是将单词映射为线性空间的向量,将离散的单词变成连续的向量,最常见的用法是计算两个词语的余弦相似度。通常词向量有助于提高大部分自然语言处理任务的性能。我们选用GLOVE预先训练好的数据,将短语中的各个词向量加权求和作为特征使用。
这一篇介绍的特征相当全面,包括了以往文献中的大部分特征设计方法,这些特征将用于crf标注和候选词分类阶段。下一篇将介绍使用规则提取名词性短语的方法。