实体关系抽取

一、相关名词

IE（Information Extraction）：信息抽取
NER（Named Entity Recognition）：命名实体识别
RE（Relation Extraction）：关系抽取
EE（Event Extraction）：事件抽取
Web IE：网络信息抽取

二、学习链接

三、相关论文

A Frustratingly Easy Approach for Joint Entity and Relation Extraction, Danqi Chen, 2020

打破平常人们认为的joint extraction 好于pipeline （分两阶段进行实体抽取和关系抽取）的观念，首次提出融入typed entity markers （即加了类型的实体标签，eg，<S:Md></S:Md>）；使用的两阶段的encoder之间不共享参数，认为这两个任务具有不同的输入格式，并且需要不同的特征来预测实体类型和关系；也可选地可以融入跨句信息，也就是将句子扩展到固定窗口大小W=100来简单地引入跨句上下文（eg，原来句子有n=50个词，那再各从两边取25个词）；也在关系抽取的任务中提出了加速计算的近似推理方法，将实体边界和类型的标识符放入到文本之后，然后与原文对应实体共享位置向量。上图中相同的颜色代表共享相同的位置向量。具体地，在attention层中，文本token只去attend文本token、不去attend标识符token，而标识符token可以attend原文token。通过这种「近似模型」可以实现一次编码文本就可以判断所有实体pair间的关系。

论文模型图
 自己画的模型图

Distant Supervision for Relation Extraction with Sentence-level Attention and Entity Descriptions, 2017

提出了句子级别的注意力机制模型（能选取多个有效实例进行特征提取）和实体描述信息（提供更多的背景知识并且为注意力机制提升实体表示）从文本中进行关系的抽取。
APCNNs=PCNNs + Attention Module，PCNN模块：用来从包里抽取出实例的特征向量，Sentence-Level Attention Module：对有效的实例分配更高的权重，对无效的实例分配较低的权重值。D：实体描述，使用传统CNN从Freebase/Wikipedia中抽取出实体特征

模型图片

Distant supervision for relation extraction without labeled data, 2009

首次提出远程监督的概念，使用Freebase（一个包含数千个关系的大型语义数据库）来提供远程监控，在大型无标注语料库中标注实体关系。即，对于Freebase关系中出现的实体对，我们在一个大型的未标记语料库中找到包含这些实体的所有句子，并提取文本特征来训练关系分类器。论文分两个部分，第一部分讲怎么标注，第二部分讲怎么抽取。（标注那部分讲得不是很详细）

个人笔记链接

posted @ 2020-10-26 21:43 戴墨镜的长颈鹿阅读(768) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

Loading

戴墨镜的长颈鹿

实体关系抽取

一、相关名词

二、学习链接

公告

最新随笔

随笔分类

阅读排行榜

推荐排行榜