随笔分类 -  NLP之Relation Extraction

摘要:一、创新点: 鉴于之前的很多方法在relation extraction中 label只用了one-hoe向量,认为关系之间是独立的。本文认为relation也是由关联的。因此,本文提出一个模型RELE(Relation Extraction with Joint Label Embedding), 阅读全文
posted @ 2019-11-22 17:18 _Meditation 阅读(429) 评论(0) 推荐(0) 编辑
摘要:本文准确来说,创新点基本没有,如果说,那就是比其他paper更多的参数。采用2-D的矩阵来进行word和sentence表示,希望能捕获更多的语义信息。 优点: (1)在关系抽取中首次提出2Dquery vector,并赋予了其实际意义对2D query vector矩阵的约束个人感觉也是一个小亮点 阅读全文
posted @ 2019-11-22 09:29 _Meditation 阅读(163) 评论(0) 推荐(0) 编辑
摘要:目标(创新点): 因为远程监督而引入的很多质量很低的句子,这些句子包含了一些嘈杂的单词,而这些单词被当前的远程监督方法忽略了,导致了不可接受的精确度。文本提出的目标是为了解决句子内部的噪音单词。 主要工作: 1. 提出了消除句子中噪声词的STP(Sub-Tree Parse)和增强关系词语义特征的实 阅读全文
posted @ 2019-11-21 16:43 _Meditation 阅读(279) 评论(0) 推荐(0) 编辑
摘要:先说看完本文的一个收获吧: 文章创造性地将关系提取中的自动选种和数据降噪这两个重要任务转换为排序问题。然后,借鉴 HITS、K-means、LSA 和 NMF 等传统算法策略,按照对实例-模式三元组排序的思路,构建出了兼具自动选种和数据降噪功能的算法。实验结果显示,文章提出的算法能够有效完成自动选种 阅读全文
posted @ 2019-11-20 17:00 _Meditation 阅读(120) 评论(0) 推荐(0) 编辑
摘要:这篇文章引入了额外的Knowledge Graph 信息: 实体描述(entity Description). 比如NYT 数据集是通过Freebase做entity linking等工具来进行连接出句子中的实体,而其实每个实体在FB都有一段文字描述, 文中认为现在的工作都集中在NYT + Free 阅读全文
posted @ 2019-11-20 16:11 _Meditation 阅读(188) 评论(0) 推荐(0) 编辑
摘要:概述: 本文主要是设计了一个深度强化学习框架,用于移除原始训练集中的假阳性实例,并重建一个纯净的训练(测试)数据集,以提高关系分类的精度。 该算法独立于关系抽取模型的,是一种即插即用的技术,可应用于任何一个现有的远程监督关系抽取模型 问题引入 关系抽取是知识图谱构建的关键模块之一,同时它也是许多自然 阅读全文
posted @ 2019-11-19 17:46 _Meditation 阅读(353) 评论(0) 推荐(0) 编辑
摘要:在本文理解之前,这个图必须理解,因为这个是本文数据的划分范围。 x为远程监督的负样本,也就是通过远程监督排除的数据。其余的为远程监督产生的样本,即远程正例样本。但是这里还分真的能表达这个关系的true positive data(○),和噪音数据false positive data(△). 创新点 阅读全文
posted @ 2019-11-14 15:09 _Meditation 阅读(345) 评论(0) 推荐(0) 编辑
摘要:本文解决的问题:1)不能在句子级别进行预测2)基于包的方法通常在过滤噪声数据时,至少保留包中的一条数据。这样的做法无法处理一个包中全是噪声数据的情况,而全是噪声数据的包在远程监督方法中很常见 本文实现的方式概述: 方法包含两个模块:实例选择器(instance selector)和关系分类器(rel 阅读全文
posted @ 2019-11-13 16:45 _Meditation 阅读(143) 评论(0) 推荐(0) 编辑
摘要:概述 为了减轻pattern编写的工作量,并能够对新的关系类型进行快速泛化,作者提出了一种 pattern诊断框架DIAG-NRE,该框架能够在人工专家的参与下,从噪声数据中自动总结和提炼高质量的关系模式 主要结构图: NRE Models对于一个instance s, token成 [x1,x2, 阅读全文
posted @ 2019-11-08 16:20 _Meditation 阅读(178) 评论(0) 推荐(0) 编辑
摘要:一。概述 远程监督的关系抽取目前的聚焦点在如何去消除噪音。主要方法有多实例的学习方法和提供语言或语境的信息去引导关系分类。尽管取得了sota,但是这些模型都只是在有限的关系集合中取得高的精度,而忽视了关系有很多种,模型缺少泛化能力。 对此,本文提出了一种基于预训练语言模型的远程监督方法。 由于GPT 阅读全文
posted @ 2019-11-07 16:46 _Meditation 阅读(533) 评论(0) 推荐(0) 编辑
摘要:常用数据集 ACE 2005: 599 docs. 7 types; SemiEval 2010 Task8 Dataset: 19 types train data: 8000 test data: 2717 NYT+FreeBase 通过Distant Supervised method 提取, 阅读全文
posted @ 2019-11-01 16:51 _Meditation 阅读(1747) 评论(0) 推荐(0) 编辑
摘要:一。概述 提出了新的一种通过pattern来减少远程监督中的噪声。ARNOR认为一个可以信赖的关系的标签可以被神经网络解释的。ARNOR框架迭代的去学习一个可以解释的模型并利用它去选择新的可以信赖的实例。本文作者提出通过pattern来进行确定信赖的关系标签。 二。现状分析 在远程监督提出后,差不多 阅读全文
posted @ 2019-10-30 18:55 _Meditation 编辑
摘要:实验 同样用held-out以及P@N 结果如下: 从结果看, 本文的方法比Lin 2016 要好, 毕竟考虑了关系的依赖性,不过提升不是很明显,可能原因是数据问题,relation的overlapping比较少。 再看一组对比实验: 分别是去掉word-attention 以及去掉 relatio 阅读全文
posted @ 2019-10-28 14:04 _Meditation 阅读(291) 评论(0) 推荐(0) 编辑
摘要:这篇文章从另一个角度来解决Zeng 2015的问题,并且考虑了实体对的多关系的问题。 动机 Zeng 2015里面仅仅取置信度最高的instance,丢失信息。 在数据集中,有约18.3%的entity pair有多种relation, 其他方法均未考虑。 模型 针对以上的两个问题提出了两个解决方法 阅读全文
posted @ 2019-10-28 13:52 _Meditation 阅读(162) 评论(0) 推荐(0) 编辑
摘要:(一)远程监督的思想 这篇论文首先回顾了关系抽取的监督学习、无监督学习和Bootstrapping算法的优缺点,进而结合监督学习和Bootstrapping的优点,提出了用远程监督做关系抽取的算法。 远程监督算法有一个非常重要的假设:对于一个已有的知识图谱(论文用的Freebase)中的一个三元组( 阅读全文
posted @ 2019-10-23 18:14 _Meditation 阅读(771) 评论(0) 推荐(0) 编辑
摘要:大致描述 这一篇工作是在Zeng 2014基础上的扩展,从Fully Supervised 到Distant Supervised. 动机 Distant supervised 会产生有大量噪音或者被错误标注的数据,直接使用supervised的方法进行关系分类,效果很差。 原始方法大都是基于词法、 阅读全文
posted @ 2019-10-23 18:10 _Meditation 阅读(445) 评论(0) 推荐(0) 编辑
摘要:模型: 9层CNN卷积+深度残差学习 关系抽取是一个重要的课题。以前也有很多paper用CNN进行提取特征,不过他们大多只用了很浅的CNN(大部分都只有一层convolution layer+1 FC 层)。并没有人研究深层CNN好不好用。本文中,我们研究了深层CNN用于远程监督的RE(relati 阅读全文
posted @ 2019-09-10 14:09 _Meditation 阅读(152) 评论(0) 推荐(0) 编辑
摘要:这篇关系抽取的论文来自清华大学的刘知远教授团队,是2016年关系抽取-远程监督最经典的nn模型 论文总体描述: 运用attention机制来尽量减轻错误label的负面影响;运用CNN(PCNN)将关系用sentence embedding的语义组合来表示,以此充分利用训练知识库的信息。讲解参考:h 阅读全文
posted @ 2019-09-10 10:16 _Meditation 阅读(445) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示