Information Extraction

这是《语音和语言识别》第二十二章的笔记

命名实体识别
关系探测和分类
时间和事件处理
模板填充
高级主题：生物医药学的信息提取

关系探测和分类

监督型学习方法

可以把这个问题拆分成两个步骤：

判断两个候选项之间是否存在关系：使用一个二类分类器

给关系打上标签：使用多类分类器如朴素贝叶斯、决策树、最大熵

对于特征项的选取：

候选项的实体类型

实体类型的连接

候选项前几个词语

候选项的词袋、bigram词袋

两个候选项之间的词语数目

两个候选项之间的实体数目

整个句法树

组块路径

依存路径

两个候选项在句法树上的路径

轻的监督型学习方法

使用种子正则模式来生成新的正则模式。
e.g.

/[ORG] has a hub at [LOC]

使用这个正则模式我们在google News里发现了一个句子：

Ryanair has a hub at Charleroi

那么接下来使用Ryanair、Charleroi、hub发现了新的模式：

/[ORG], which uses [LOC] as a hub
/[ORG]’s hub at [LOC]
/[LOC] a main hub for [ORG]

新得到的模式的得分：

Conf = hits * log(finds)/ (hits + misses)

hits：在搜索文档D的时候，新模式p匹配到的元组在已有模式集T里的数目
missed: 在搜索文档D的时候，新模式p匹配到的元组不在已有模式集T里的数目
finds：在搜索文档D的时候，新模式p匹配到的所有元组

关系探测系统的评估

给出一篇文章，系统能发现和分类出多少个文章里的关系
系统能发现多少对元组（不考虑关系）

时间和事件处理

主要有三个方法：

在浅层句法分析、组块分析上的基于规则的系统

基于统计的IOB编码方法

基于成分的方法

方法1：
由于“时间”在句法分析里，只会出现在名词短语、形容词短语、副词短语中，在句法分析后，在这三类短语里，如果符合时间的正则模式，则认为这个部分为“时间”。

方法2：
归结为序列标注问题。

方法3：
句法分析后，在上面提到的三种短语里，进行序列标注。

所有这三种方法的主要缺点是不能打到合理的覆盖。比如有的人名也包含时间，比如“赵九月”是一个人名。

时间正则化

就是把时间标记成：开始、结束、之前、之后等。

事件处理和分析

大多数的事件是动词，大多数的动词是事件，有些名词短语也是事件。大多数助动词不是事件。
以下是基于规则或者基于统计的分类器经常使用的特征项:

词缀字符

正则化的后缀

词性

助动词

句法分析出的种类

词的形态

动词的根（英语）

WordNet上的词义

时间和事件分析结合起来可以知道一条时间线上发生了什么事情。

有关时间分析的语料库有TimeBank（英文）。

模板填充

为每个实体实现一个分类器

实现一个多分类器

有些模板填充系统里的实体类别数是固定的，有些不是的。

高级主题：生物医药学信息提取

It is just an example.

posted @ 2016-10-19 18:00 StevenLuke 阅读(179) 评论(0) 收藏举报

刷新页面返回顶部

StevenLuke