信息抽取学习笔记
MCU评测任务已经增加到5个:①场景模板填充(scenariotemplate,ST):定义了描述场景的模板及槽填充规范;②命名实体(namedentity,NE)识别:识别出文本中出现的专有名称和有意义的数量短语,并加以归类;③共指(co-reference,CR)关系确定:识别出给定文本中的参照表达(referringexpressions),并确定这些表达之间的共指关系;④模板元素(templateelement,TE)填充:类似于人名和组织机构名识别,但是,要求系统必须识别出实体的描述和名字,如果一个实体在文本中被提到了多次,使用了几种可能的描述和不同的名字形式,要求系统都要把它们识别出来,一个文本中的每个实体只有一个模板元素[GrishmanandSundheim,1996];⑤模板关系(templaterelation,TR):确定实体之间与特定领域无关的关系。
ACE旨在定义一种通用的信息抽取标准,不再限定领域和场景,而是从语义的角度制订一套更为系统化的信息抽取框架,这个框架将信息抽取归结为建立在一定本体论(ontology)基础上的实体、关系、事件的抽取,从而适用于更广泛的领域和不同类型的文本。在评测任务设计上,ACE对MUC的任务进行了融合,评测内容包含:实体检测与跟踪(entitydetectionandtracking,EDT)、数值检测与识别(valuedetectionandrecognition,VDR)、时间识别和规范化(timeexpressionrecognitionandnormalization,TERN)、关系检测与描述(relationdetectionandcharacterization,RDC)、事件检测与描述(eventdetectionandcharacterization,EDC)和实体翻译(entitytranslation,ET)等。
不管系统采用什么样的实现方法,必须解决的关键问题应该包括如下几个方面:①命名实体识别;②句法分析,尤其是短语或语块分析等浅层句法分析和依存句法分析;③共指分析和歧义消解;④实体关系识别:确定文本中两个实体之间在某一时间范围内所存在的关系;⑤事件识别:识别多个实体之间的存在关系,包括经历一段时间之后实体状态以及实体之间关系的改变。另外,语篇的分析,包括语篇的结构分析和逻辑分析也是不可忽视的一个问题。当然,对于汉语文本而言,自动分词问题始终是一个无法绕过的拦路虎。
开放式信息抽取的重点:开放式实体抽取、实体消歧和开放式实体关系抽取
信息抽取工具包:Gate https://gate.ac.uk/
articles:
https://www.rroij.com/open-access/a-study-of-information-extraction-tools-foronline-english-newspapers-pdfcomparative-analysis.php?aid=46978
http://www.bearcave.com/misl/misl_tech/nlp.html
http://www.cs.utexas.edu/~ml/papers/text-kddexplore-05.pdf
http://www.cs.nyu.edu/grishman/tarragona.pdf
http://keg.cs.tsinghua.edu.cn/jietang/publications/Tang-et-al-Information_Extraction.pdf
https://en.wikipedia.org/wiki/Information_extraction