今天看论文

# 实体关系抽取算法研究
信息抽取的分支
非结构化数据->(半)结构化数据
评测:
- 消息理解会议MUC
- 自动内容抽取ACE
- 文本会议分析TAC

TAC-KBP-ESF:关于人物的25种关系属性,关于组织机构的16种关系属性
半监督的关系抽取算法:bootstrapping算法

创新点:
1. 触发词特征 触发力
2. 关系模式的表达方法:语义最短依存路径模式
3. 相似性测度:自底向上的核函数测度
4. 语义约束的bootstrapping模型的构建

## 第一章 绪论
### 1.1 课题研究背景以及意义
#### 1.1.1 课题研究背景
信息检索IR->信息抽取IE
IE:通过nlp和ml等技术将 **非结构化数据->结构化数据**

** Entity Relation Extraction (ERE) 实体关系抽取** 是IE领域的重要分支:从自然语言文本中寻找并判定实体对(entity pair之间存在的特定关系。

#### 1.1.2 课题研究的意义
1. 知识库的自动构建
WordNet Freebase
2. 智能信息检索
3. 对问答系统的技术支持
### 1.2 课题研究现状
#### 1.2.1 面向结构化/非结构化文本的实体关系抽取
- xml
- 自由文本:语义分析 语义理解
#### 1.2.2 基于规则/机器学习的实体关系抽取
- 有监督:分类问题
- 基于特征向量:关系->特征向量->训练分类器
- 基于核函数:数据组织形式(实体关系)->用核函数表示关系之间的相似度
- 半监督:基于部分标注的样本,实现对数据的关系的自动抽取。常用的有bootstrapping。(本文基于bootstrapping)
- 无监督:刚刚起步
### 1.3 论文的主要工作和研究成果
开放式 封闭式 的自动关系抽取:热点都是半监督的关系抽取
重点是:基于bootstrapping的改进与融合,以及语义约束的bootstrapping
## 第二章 关系抽取算法
IE的三大任务:命名实体识别,关系抽取,事件抽取
### 2.1 关系抽取基础
#### 2.1.1 实体
- 命名实体 Names Enity NE:USA China Gates
- 代词实体 Pronoun Enity PE:we he
- 名词性实体 Nominal Entity NoE:the man the city

实体 ~= 命名实体
命名实体识别:文本->标注额实体的文本
常用的命名实体识别方法有:HMM,CMM,MEM,CRF

#### 2.1.2 实体关系
- 二元实体关系
- 多元实体关系
- 明确关系抽取:通常指的是这一种
- 隐含关系抽取

本文:二元明显关系抽取
### 2.2 关系抽取算法
现在都用ml了
#### 2.2.1 基于机器学习关系抽取算法一般流程
学习-预测
训练样本-测试样本
1. 预处理 得到纯文本格式
2. 文本分析 对文本的表示和特征的选取 对文本进行抽象 (命名实体识别,句法分析,依存分析) 本文用依存树的特征
3. 关系表达 relation representation
4. 关系抽取模型:分类模型

#### 2.2.2 有监督的关系抽取算法
1. 抽取文本中所有的entity pair
2. 构造为候选关系实例
3. ml方法训练分类模型
```分类系统:fR
R代表关系
输入:句子 (包含(e1,e2))的特征
输出: 1:有关
-1:无关
```
***
- 基于特征向量的关系抽取算法
句子->特征->特征向量->训练分类器

句法特征:实体及其类型 实体间词序列及其长度 两个实体的句法树路径
语义特征:两个实体的依存路径

大多数使用:svm,最大熵模型,条件随机场
**特征的选择是ml算法的关键问题**
- 基于核函数的关系抽取算法
用核函数计算关系实例之间的距离
缺点:
1. 需要人工标注样本
2. 难以扩展到多元关系的抽取中
3. 计算复杂度较高
4. 会产生积累误差
#### 2.2.3 无监督的关系抽取算法
#### 2.2.4 半监督的关系抽取算法
- bootstrapping
也叫自扩展技术
**种子**
构建种子集->训练一个指导性分类器(SVM)->对未标注数据进行预测->找到最可靠的N个实例加入到种子集中->重复
典型模型:snowball
- 协同训练方法
- 标注传播方法
### 2.3 关系抽取算法常用工具及数据集
#### 2.3.1 关系抽取算法常用数据集
- MUC关系抽取任务数据集
- ACE关系抽取任务数据集
- TAC-KBP数据集
ESF任务:抽取关于PER的25种属性和ORG的16种属性
#### 2.3.2 关系抽取算法常用工具
文本分析工具:
- Stanford CoreNLP:对自然语言文本的文本分析,词性还原,词性标注,命名实体标注,共指消解,句法分析,依存分析
- 自然语言工具包 Natural Language Toolkit, NLTK:基于python,中文分词,词形还原,文本分类
- OpenCCG:java
### 2.4 关系抽取算法评测标准
IR和IE的三项基本评价指标:precision, recall, F measure
- Precision
- Recall
- F measure:综合考虑Precision和Recall
f=(2PR)/(P+R)
**f接近1比较好**

posted @ 2017-10-04 14:59  一条图图犬  阅读(514)  评论(0编辑  收藏  举报