Information Extraction
这是《语音和语言识别》第二十二章的笔记
- 命名实体识别
- 关系探测和分类
- 时间和事件处理
- 模板填充
- 高级主题:生物医药学的信息提取
关系探测和分类
监督型学习方法
可以把这个问题拆分成两个步骤:
- 判断两个候选项之间是否存在关系 : 使用一个二类分类器
- 给关系打上标签 : 使用多类分类器如朴素贝叶斯、决策树、最大熵
对于特征项的选取:
- 候选项的实体类型
- 实体类型的连接
- 候选项前几个词语
- 候选项的词袋、bigram词袋
- 两个候选项之间的词语数目
- 两个候选项之间的实体数目
- 整个句法树
- 组块路径
- 依存路径
- 两个候选项在句法树上的路径
轻的监督型学习方法
使用种子正则模式来生成新的正则模式。
e.g.
/[ORG] has a hub at [LOC]
使用这个正则模式我们在google News里发现了一个句子:
Ryanair has a hub at Charleroi
那么接下来使用Ryanair、Charleroi、hub发现了新的模式:
/[ORG], which uses [LOC] as a hub
/[ORG]’s hub at [LOC]
/[LOC] a main hub for [ORG]
新得到的模式的得分:
Conf = hits * log(finds)/ (hits + misses)
hits: 在搜索文档D的时候,新模式p匹配到的元组在已有模式集T里的数目
missed: 在搜索文档D的时候,新模式p匹配到的元组不在已有模式集T里的数目
finds: 在搜索文档D的时候,新模式p匹配到的所有元组
关系探测系统的评估
- 给出一篇文章,系统能发现和分类出多少个文章里的关系
- 系统能发现多少对元组(不考虑关系)
时间和事件处理
主要有三个方法:
- 在浅层句法分析、组块分析上的基于规则的系统
- 基于统计的IOB编码方法
- 基于成分的方法
方法1:
由于“时间”在句法分析里,只会出现在名词短语、形容词短语、副词短语中,在句法分析后,在这三类短语里,如果符合时间的正则模式,则认为这个部分为“时间”。
方法2:
归结为序列标注问题。
方法3:
句法分析后,在上面提到的三种短语里,进行序列标注。
所有这三种方法的主要缺点是不能打到合理的覆盖。比如有的人名也包含时间,比如“赵九月”是一个人名。
时间正则化
就是把时间标记成:开始、结束、之前、之后等。
事件处理和分析
大多数的事件是动词,大多数的动词是事件,有些名词短语也是事件。大多数助动词不是事件。
以下是基于规则或者基于统计的分类器经常使用的特征项:
- 词缀字符
- 正则化的后缀
- 词性
- 助动词
- 句法分析出的种类
- 词的形态
- 动词的根(英语)
- WordNet上的词义
时间和事件分析结合起来可以知道一条时间线上发生了什么事情。
有关时间分析的语料库有TimeBank(英文)。
模板填充
- 为每个实体实现一个分类器
- 实现一个多分类器
有些模板填充系统里的实体类别数是固定的,有些不是的。
高级主题:生物医药学信息提取
It is just an example.