Information Extraction

这是《语音和语言识别》第二十二章的笔记

  • 命名实体识别
  • 关系探测和分类
  • 时间和事件处理
  • 模板填充
  • 高级主题:生物医药学的信息提取

关系探测和分类

监督型学习方法

可以把这个问题拆分成两个步骤:

  1. 判断两个候选项之间是否存在关系 : 使用一个二类分类器
  2. 给关系打上标签 : 使用多类分类器如朴素贝叶斯、决策树、最大熵

对于特征项的选取:

  1. 候选项的实体类型
  2. 实体类型的连接
  3. 候选项前几个词语
  4. 候选项的词袋、bigram词袋
  5. 两个候选项之间的词语数目
  6. 两个候选项之间的实体数目
  7. 整个句法树
  8. 组块路径
  9. 依存路径
  10. 两个候选项在句法树上的路径

轻的监督型学习方法

使用种子正则模式来生成新的正则模式。
e.g.

/[ORG] has a hub at [LOC]

使用这个正则模式我们在google News里发现了一个句子:

Ryanair has a hub at Charleroi

那么接下来使用Ryanair、Charleroi、hub发现了新的模式:

/[ORG], which uses [LOC] as a hub
/[ORG]’s hub at [LOC]
/[LOC] a main hub for [ORG]

新得到的模式的得分:

Conf = hits * log(finds)/ (hits + misses)

hits: 在搜索文档D的时候,新模式p匹配到的元组在已有模式集T里的数目
missed: 在搜索文档D的时候,新模式p匹配到的元组不在已有模式集T里的数目
finds: 在搜索文档D的时候,新模式p匹配到的所有元组

关系探测系统的评估

  1. 给出一篇文章,系统能发现和分类出多少个文章里的关系
  2. 系统能发现多少对元组(不考虑关系)

时间和事件处理

主要有三个方法:

  1. 在浅层句法分析、组块分析上的基于规则的系统
  2. 基于统计的IOB编码方法
  3. 基于成分的方法

方法1:
由于“时间”在句法分析里,只会出现在名词短语、形容词短语、副词短语中,在句法分析后,在这三类短语里,如果符合时间的正则模式,则认为这个部分为“时间”。

方法2:
归结为序列标注问题。

方法3:
句法分析后,在上面提到的三种短语里,进行序列标注。

所有这三种方法的主要缺点是不能打到合理的覆盖。比如有的人名也包含时间,比如“赵九月”是一个人名。

时间正则化

就是把时间标记成:开始、结束、之前、之后等。

事件处理和分析

大多数的事件是动词,大多数的动词是事件,有些名词短语也是事件。大多数助动词不是事件。
以下是基于规则或者基于统计的分类器经常使用的特征项:

  1. 词缀字符
  2. 正则化的后缀
  3. 词性
  4. 助动词
  5. 句法分析出的种类
  6. 词的形态
  7. 动词的根(英语)
  8. WordNet上的词义

时间和事件分析结合起来可以知道一条时间线上发生了什么事情。

有关时间分析的语料库有TimeBank(英文)。

模板填充

  1. 为每个实体实现一个分类器
  2. 实现一个多分类器

有些模板填充系统里的实体类别数是固定的,有些不是的。

高级主题:生物医药学信息提取

It is just an example.

posted @ 2016-10-19 18:00  StevenLuke  阅读(167)  评论(0编辑  收藏  举报