ACL2016信息抽取与知识图谱相关论文掠影
实体关系推理与知识图谱补全
如需转载,请联系本人:jtianwen2014,并注明出处
Unsupervised Person Slot Filling based on Graph Mining
- 作者:Dian Yu, Heng Ji
- 机构:Computer Science Department, Rensselaer Polytechnic Institute
本文的任务为槽填充(Slot Filling),即从大规模的语料库中抽取给定实体(query)的被明确定义的属性(slot types)的值(slot fillers)。对于此任务,本文叙述目前主流的方法可以分为两类:有监督的分类方法,设计分类器识别给定的实体与值所属的关系类型,分类器的训练往往使用如活动学习、利用距离监督的噪声标注等方法;模式匹配方法,从文本中自动或半自动地抽取和生成词法或句法的模式,以用于关系的抽取,但因为关系所表述的方式千差万别,这种模式匹配方法无法拥有较好的召回率。
本文认为,以上两类方法都无法很好的应对新的语言或是出现新的关系类型的情况,即移植性不强;而且,两种方法都只是专注于实体和候选值之前的平坦表示,并没有考虑到它们之间的全局结构关系,以及语句中其他的关系事实的影响。本文重要的算法思想基于以下两个观察:
- 在句子的依存图中,触发词结点(trigger)经常是和实体(query)与值(filler)结点都很相关的,并且是图中的重要节点;
- 当实体(query)与值(filler)结点通过一个关系明确的触发词强关联起来,往往意味着存在一定的关系(slot type)。
基于以上两个观察,本文的提出了一种基于图的槽填充的方法:首先,利用简单的启发式规则,从句子中识别出候选实体与属性值;然后,对于给定候选实体与属性值对,利用PageRank图算法和AP(Affinity Propagation)聚类算法自动识别触发词;最后,根据识别的触发词对属性类型(slot type)进行分类。本文主要的思想在于,以属性触发词为切入点进行关系的挖掘,将PageRank算法与AP算法引入其中。候选实体与属性值的识别、属性类型的分类这两个部分使用了启发式的规则与外部的词典资源。
Knowledge Base Completion via Coupled Path Ranking
- 作者:Quan Wang†, Jing Liu‡, Yuanfei Luo†, Bin Wang†, Chin-Yew Lin‡
- 机构†:Institute of Information Engineering, Chinese Academy of Sciences
- 机构‡:Microsoft Research
本文的任务为知识库补全,即通过考察知识库中已经存在的事实,自动推理出丢失的事实。本文叙述这项任务的方法大体分为三种:
- Path Ranking 算法(PRA),通过连接实体的已有路径来预测实体间的潜在关系;
- 基于表示学习的模型,将实体和关系映射为空间中的向量,通过空间中向量的运算来进行推理(如TransE);
- 概率图模型,如马尔科夫逻辑网络及其衍生物。
由于PRA方法具有较好的解释性,并且不需要额外的逻辑规则,本文主要使用PRA方法对其改进。在利用PRA进行关系推理时,以往的方法都是在推理阶段,利用PRA为每个关系独立建模,也就是为每个关系学习一个独立的分类器。
本文的初衷是:如果使用PRA对某些关系集体建模是否会得到更好的效果,尤其是当这些关系彼此紧密联系的时候,比如,“出生”和“生长于”这两个关系极有可能共同拥有一些关系路径:“国籍->首都”等。很多研究表明这种多任务学习相比单任务学习而言,往往具有更好的效果。本文提出CPRA的方法,该方法所要解决两个问题:(1)哪些关系需要组合在一起学习?(2)如何组合在一起学习?
Commonsense Knowledge Base Completion
- 作者:Xiang Li∗‡ Aynaz Taheri† Lifu Tu‡ Kevin Gimpel‡
- 机构∗:University of Chicago
- 机构†:University of Illinois at Chicago
- 机构‡:Toyota Technological Institute at Chicago
本文的任务是常识知识库的补全工作,即根据已有的知识推理预测概念之间心的知识。不同于一般的知识库,如FreeBase,常识知识库ConceptNet的结点主要为短语,而非实体。本文利用神经网络的方法将ConceptNet中词项向量话表示,对于给定的元组进行打分以获得置信度较高的元组用以补全。
Compositional Learning of Embeddings for Relation Paths in Knowledge Bases and Text
- 作者:Kristina Toutanova, Xi Victoria Lin∗, Wen-tau Yih, Hoifung Poon, Chris Quirk
- 机构:Microsoft Research
- 机构∗:University of Washington
本文的任务为知识图谱补全,推理预测实体间潜在的关系。本文叙述,当前的一些学者将关系路径信息融入到知识库嵌入式表示中,取得了非常显著的结果。知识库嵌入式表示,指的是将知识库中实体和关系映射到低维稠密的空间中,知识的推理转化为实体与关系所关联的向量或矩阵之间的运算。这种嵌入式的表示,操作花销较小,推理的效率较高。为了进一步提升基于嵌入式表示的关系推理,一些学者将关系路径信息融入其中。
本文发现,目前的将关系路径融入知识库的嵌入式表示方法存在如下问题:首先,当关系的路径总类增多时,时间开销较大,严重影响推理的效率;另外,目前的方法只考虑了路径信息,没有考虑结点的信息,即使是相同路径,包含不同结点也拥有不同的信息。本文提出了一种动态编程的方法,可以高效地将关系路径融入到知识库的嵌入式表示,并且同时对路径上的关系类型和结点进行表示。
TransG : A Generative Model for Knowledge Graph Embedding
- 作者:Han Xiao, Minlie Huang∗, Xiaoyan Zhu
- 机构:State Key Lab. of Intelligent Technology and Systems National Lab. for Information Science and Technology
- 机构∗:Dept. of Computer Science and Technology Tsinghua University
本文的任务为知识图谱表示学习,旨在将知识图谱映射到低维稠密的向量空间里。与以往研究工作不同,本文将目光聚焦于“多语义关系”,即同一名相的关系可能具有不同的语义含义,如对于关系“HasPart”,对于实体“桌子”和“桌腿”有这种关系,对于“英国”和“伦敦”也同样具有这样的关系,但二者所表达的含义却不尽相同。
不止于感性层面上,本文对TransE的知识图谱向量表示进行可视化(PCA降维):抽取四种不同关系,将具有给定关系的实体对向量相减(据TransE思想,可以得到关系的向量),将结果向量展示在二维空间里。理想情况下,对于每个关系应该只和一个簇对应,但真实的结果是每个关系不止一个簇,而是多个明显分开的簇。这也从另一个角度说明了关系的多语义性质。
针对这一问题,本文提出贝叶斯非参数混合嵌入式表示模型,TransG。TransG可以自动发现关系的多语义簇,并且利用关系的混合语义对实体对进行翻译操作,以进行关系推理。
实体链指
A Multi-media Approach to Cross-lingual Entity Knowledge Transfer
- 作者:Di Lu1, Xiaoman Pan1, Nima Pourdamghani2, Shih-Fu Chang3, Heng Ji1, Kevin Knight2
- 机构1:Computer Science Department, Rensselaer Polytechnic Institute
- 机构2:Information Sciences Institute, University of Southern California
- 机构3:Electrical Engineering Department, Columbia University
文本的任务为low-resource语言(LLs)的实体识别,即从LLs的文本中发现实体。在某些情况下,如突发事件以及自然灾害发生时,我们经常需要构建一个LLs的信息抽取工具。对于LLs的信息抽取,其主要的挑战在于缺乏目标语言的标注数据以及相应的语言处理工具,一个较为认可的解决方案是:从high-resource语言(HLs)(如英语)文本中抽取信息,并进行知识映射。
对于突发事件的发生,在LLs和HLs中往往存在着大量的非并发的、领域丰富的、主题相关的文本语料,如社交媒体。但是如果没有高效的机器翻译技术,即使在HLs中识别出信息也是无济于事。本文发现,在这些文档中常常存在着大量的媒体数据,这些媒体数据在不同的语言上往往是相似的,如图片、视频,即语言独立的。
基于这个启发,本文以图片为枢纽自动发现内容相似的LLS和HLs文档数据,然后在HLs文档中进行实体识别与链指,最后借助多媒体的相关技术将结果映射到LLs。基于这个思想,本文提出两个组件:名称标注、跨语言实体链指(CLEL)。
总体框架包含两个步骤:(1)应用语言独立的关键短语抽取方法对LLs文档进行处理,利用这些短语搜索出种子图片,用于进一步检索相关图片以及包含这些图片的HLs文档;(2)从HLs文档中抽取知识,设计知识迁移的方法精炼LLs文档的抽取结果。
Alleviating Poor Context with Background Knowledge for Named Entity Disambiguation
- 作者:Ander Barrena, Aitor Soroa, Eneko Agirre
- 机构:IXA NLP Group, UPV/EHU University of the Basque Country
本文的任务为实体消歧,即将文本中的名相实体链接到知识库中的实体实例。本文叙述,目前的实体链指的工作方法主要分为两类:(1)mention模型,通过先验概率对可能的实体进行排序;(2)上下文模型,从上下文中抽取特征,进行实体的链指。另外,最近有提出利用上下文中共现的实体来确定目标实体的链指。
本文发现了以往方法受到低质量上下文的影响导致链接失败,很多情况下,上下文所提供的线索很弱或是有误导的可能。本文引入了背景知识来缓解低质量上下文的问题。本文主要引入了两部分背景知识:(1)和目标实体具有相似分布的实体(本文利用word2vec);(2)利用上下文的句法依存关系,引入依存的偏好,如上下文中的“visit to”和目标实体有动宾关系,与“visit to”具有动宾关系的主要是地名,所以目标实体很可能是地名。
因果推断
Identifying Causal Relations Using Parallel Wikipedia Articles
- 作者:Kathleen McKeown, Christopher Hidey
- 机构:Department of Computer Science, Columbia University
本文的任务为识别句中指示因果关系的短语,并对其进行份分类。因果关系的检测是一项十分困难的任务。首先,大多数的因果关系都是隐式表达的,这需要一些背景知识进行推理才能得知;其次,即使对于显式表达的因果,其表达的方式也是多种多样。在PDTB中,有102种显式语篇关系makers,其中有28种指示因果关系,如“because”、“as a result”等。PDTB的研究学者发现了开放的makers存在,将其称为Altlex,其中指示因果关系的包括如“This may help explain why”、“This activity produced”等开放式的表达方式。对于因果关系,显示maker s可以以较高的准确率被识别,但却很少;隐式makers较多的存在于语句中,但不易识别,Altlex则介于这二者之间:由于其变化多样,所以识别起来较为困难,但Altlex的出现也使得因果关系的识别情况可以有提升空间。
数据的缺失是因果识别的关键问题。无监督学习的准确率较低,而监督学习又需要大量的训练数据已达到较高的找汇率。本文利用维基百科平行语料识别出新的因果关系makers,这些makers也是已知makers的变种,进而通过距离监督创造训练语料。利用开放的makers和上下文特征训练出因果分类器。