Information Extraction
//阅读了两篇信息提取的论文,只看了一遍,大致记录一下,忙完了再详细的阅读学习
信息抽取的方法路线分为两大类:一种是基于KDD和数据挖掘的方法,主要从结构化,半结构化数据中抽取信息;另一种采用NLP和文本挖掘的方法,目标是从非结构化的开放文本中发现新知识,并将其转换为可理解的有用信息。MUC会议提出了一套完整的基于模板填充机制的信息抽取方案,核心内容包括命名实体识别,共指消解,关系抽取,事件抽取等具体内容。
信息抽取的具体实现方法可分为两类:基于规则的方法和基于统计的方法,现在主要考虑将两者结合寻找效果更佳的信息抽取方案。
早期关系抽取主要采用模式匹配的方法,随后又产生了基于词典驱动的方法,当前主要采用基于机器学习和基于Ontology的方法。
http://www.docin.com/p-1644466851.html
信息抽取的基本步骤:
- 构建信息抽取规则/模板
- 利用模板抽取特定新闻或事件中包括人、事、地、时间等事实
- 结构化抽取出来的信息并存储
信息抽取的关键技术:
- 命名实体识别
- 实体关系抽取
- 指代消解
- 事件抽取
https://wenku.baidu.com/view/33b873d376a20029bd642d3f.html
我们把信息抽取最终的输出结果称为模板,模板中的域称为槽(slot),而把信息抽取的过程中使用的匹配规则称为模式(pattern),要提取的待定事件或关系称为一个场景(scenario),而领域(domain)的概念要宽泛一些,一个领域可以包含多个场景。
Rapier是基于自然语言处理方式的信息抽取,主要适用于原文档中包含大量文本的情况,在一定程度上借鉴了自然语言处理技术,利用字句结构,短语和字句间的关系建立基于语法和语义的抽取规则实现信息抽取。
http://www.docin.com/p-405542447.html
rapier(健壮的信息抽取规则自动生成系统)
以半结构化文本为处理对象,学习抽取规则。Rapier的抽取规则是建立在分隔符和内容描述的基础上的,即使用了能利用句法和语义信息的模式所表达的规则。信息抽取规则用模板名和格栏(slot)名索引,由三部分组成:
前填充子(pre-filler):一个应匹配目标文本之前的文本的模式(pattern);
填充子:一个应匹配目标文本的模式;
后填充子:一个应匹配紧接目标文本之后的文本的模式。
一个模式是一串模式信息点(patter items),要求一个一个词匹配,或者是模式列表(pattern lists),可匹配n个词,文本必须满足模式规定的条件才算匹配成功。
http://www.docin.com/p-474886978.html
Relational Learning of Pattern-Match Rules for Information Extraction
这篇文章主要介绍了一个信息提取系统 – RAPIER的实现原理及效果。Rapier从信息提取任务中学习规则,利用填充模板以及模板匹配规则从一系列的文档中提取出想要的信息。
Rapier的规则使用的模式为:使用有限的句法和语义信息,使用免费可用的强大的知识来源,例如词性标签器和具有语义类的词典。信息抽取规则用模板名和格栏(slot)名索引,由三部分组成:
前填充子(pre-filler):一个应匹配目标文本之前的文本的模式(pattern);
填充子:一个应匹配目标文本的模式;
后填充子:一个应匹配紧接目标文本之后的文本的模式。
一个模式是一串(patter items),要求一个一个匹配,或者是模式列表(pattern lists),可匹配n个词,文本必须满足模式规定的条件才算匹配成功。
Rapier的学习算法
首先,对于每个slot,为每个示例创建最详细的模式,为填充器及其完整上下文指定单词和标签。因此,前填充子包含从文档开始到紧跟填充之前的单词的每个单词的item,其对由该单词及其分配的POS标签组成的item具有约束。 填充子从填充中的每个单词中有一个item,后填充子对于从填充末尾到文档末尾的每个单词都有一个item。
给定一个最大的规则库,rapier尝试压缩和推广每个slot的规则。通过选择现有规则对和创建概要来创建新规则。通过向种子规则添加前填充子和后填充子的泛化,由填充子向外获得n个规则。这些规则由规则的大小形成信息矩阵。如果最好的规则不再产生负例子,停止具体化,将这条规则添加至规则库,并删除所有的由这条规则演化过来的规则。重复上述过程,直到k次迭代之后,最好规则不再改变,就停止具体化;当压缩算法的连续迭代次数超过预定义的限制或该slot的规则数量时,就停止压缩。
效果对比
用rapier来试验计算机相关的工作。使用与填充模板配对的100个文档的数据集。进行了十次交叉验证,并且还对每个测试集进行了较小的训练样本子集的测试,以产生学习曲线。
使用三种度量来衡量实验结果:精度,正确的slot填充子的百分比; 召回,系统生成的正确模板的百分比; 和一个F度量,这是回归和精度的平均值。Rapier最终显示较好的实验效果。
RAPIER系统使用关系学习来构造IE的无界模式匹配规则,在只给出文本数据库和填充模板的条件下。所学习的模式采用有限的语法和语义信息来识别潜在的插槽填充器及其周围文本环境。从新闻组工作发布中提取信息的结果表明,对于一个现实的应用程序,可以从相对较小的示例中得到相当准确的规则。未来的研究将有希望证明类似的技术将在各种有趣的应用中是有用的。
Learning Dictionaries for Information Extraction by Multi-Level Bootstrapping
信息提取通常需要两个字典:语义词典和域的提取模式字典,这篇文章提出一个同时产生语义词典和提取模式的多级引导算法。
输入是一组没有标注的训练文本和语义类别的种子,使用相互引导技术来从种子词汇中学习提取模式,然后拓展学习到的模式,为语义类别识别更多的词汇,并将其添加到语义词典中,然后使用二级引导(元引导)只留下最可靠的词典实体
相互引导
提取模式可以产生新的语义类别,语义类别又可以反过来用于定义新的提取模式。
在相互引导之前,语料库被用于产生一组候选提取模式,使用AutoSlog来为每一个名词产生提取模式。
然后我们将提取模式应用于语料库并记录其提取结果。相互引导过程然后利用此数据产生对提取已知种类成员最有用的提取模式。这个提取模式然后被用于求取语义词典中的新词汇。
迭代上述过程,定义一个阈值来终止迭代。
多层次引导
外部引导机制,我们称之为元引导,从内部(相互)引导过程编译结果,并标识五个最可靠的词典条目。这五个NP被保留用于永久语义词典,并且相互引导过程的其余部分被丢弃。然后从头开始重新启动整个互相引导过程。采用一种评分机制,为每一个NP计算分数来确定最可靠的。
元引导的主要优点是在每个相互引导过程之后重新评估提取模式。
结果
最终多层次引导可以为不同的分类产生高质量的词典,这种方法不需要特殊的训练可以同时产生语义字典和提取模式字典;输入只需要一组没有标注的训练文本和语义类别的种子。元引导可以明显的提高提取的精度。
不明白这个图中F和N是怎么计算的?