知识图谱相关的基本概念

知识图谱的定义

定义1:知识图谱,是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互连接,构成网状的知识结构。

包含的三层含义:

1)知识图谱本身是一个具有属性的实体通过关系链接而成的网状知识库。从图的角度来看,知识图谱在本质上是一种概念网络,其中的节点表示物理世界的实体(或概念),而实体间的各种语义关系则构成网络中的边。由此,知识图谱是对物理世界的一种符号表达。

2)知识图谱的研究价值在于,它是构建在当前Web基础之上的一层覆盖网络,借助知识图谱,能够在Web网页之上建立概念间的链接关系,从而以最小的代价将互联网中积累的信息组织起来,称为可以被利用的知识

3)知识图谱的应用价值在于,它能够改变现有的信息检索方式,一方面通过推理实现概念检索(相对于现有的字符串模糊匹配方式而言);另一方面以图形化方式向用户展示经过分类整理的结构化知识,从而使人们从人工过滤网页寻找答案的模式中解脱出来

知识图谱的架构

知识图谱的架构,包括知识图谱自身的逻辑结构以及构建知识图谱所采用的技术架构。

首先介绍知识图谱的逻辑结构,从逻辑上将知识图谱划分为2个层次:数据层和模式层。在知识图谱的数据层,知识以事实为单位存储在图数据库。例如谷歌的Graphd和微软的Trinity都是典型的图数据库。如果以“实体-关系-实体”或者“实体-属性-性值”三元组作为事实的基本表达方式,则存储在图数据库中的所有数据将构成庞大的实体关系网络,形成知识的“图谱”。

模式层在数据层之上,是知识图谱的核心。在模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层,借助本体库对公理,规则和约束条件的支持能力来规范实体,关系以及实体的类型和属性等对象之间的联系。

知识图谱的一般技术架构。下图给出了知识图谱技术的整体架构,其中虚线框内的部分为知识图谱的构建过程,同时也是知识图谱更新的过程。知识图谱的构建过程是从原始数据触发,采用一系列自动或半自动的技术手段,从原始数据中提取出知识要素(即事实),并将其存入知识库的数据层和模式层的过程。这是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含3个阶段:信息抽取,知识融合以及知识加工。

 知识图谱有自顶向下和自底向上2中构建方式,所谓自顶向下构建是借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库中;所谓自底向上构建,则是借助一定的技术手段,从公开采集的数据中提取出资源模式,选择其中置信度较高的新模式,经人工审核之后,加入到知识库中。

2.知识图谱的构建技术

采用自底向上的方式构建知识图谱的过程是一个迭代更新的过程,每一轮更新包括3个步骤:1)信息抽取,即从各种类型的数据源中抽取出实体(概念),属性以及实体间的相互关系,在此基础上形成本体话的知识表达;2)知识融合,在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等3;)知识加工,对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量,新增数据之后,可以进行知识推理,拓展现有知识,得到新知识。

信息抽取

信息抽取是知识图谱构建的第1步,其中的关键问题是如何从异构数据源中自动抽取信息得到候选知识单元。信息抽取是一种自动化地从半结构化和无结构数据中抽取实体,关系以及实体属性等结构化信息的技术,涉及的关键技术包括:实体抽取,关系抽取和属性抽取。

2.1.1 实体抽取

实体抽取,也称为命名实体识别(NER),是指从文本数据集中自动识别出命名实体。实体抽取的质量(准确率和召回率)对后续的知识获取效率和质量影响极大,因此是信息抽取中最为基础和关键的部分。实体抽取的方法归纳为3种:(1)基于规则与词典的方法,通常需要为目标实体编写规则,然后在原始语料中进行匹配。(2)基于统计机器学习的方法。主要利用数据来对模型进行训练,然后再利用训练好的模型去识别实体。(3)面对开放域的抽取方法

关系抽取

文本语料经过实体抽取,得到的是一系列离散的命名实体,为了得到语义信息,还需要从相关语料中提取出实体之间的关联关系,通过关系将实体(概念)联系起来,才能形成网状的知识结构。

通过实体抽取获取的实体之间往往是离散且无关联的,通过关系抽取,可以建立起实体间的语义链接。关系抽取技术主要分为3种:(1)基于模板的关系抽取(2)基于监督学习的关系抽取(3)基于半监督或无监督学习的关系抽取

属性抽取

属性抽取的目标是从不同信息源中采集特定实体的属性信息。

知识融合

通过信息抽取,实现了从非结构化和半结构化数据中获取实体,关系以及实体属性信息的目标,然而,这些结果中可能包含大量的冗余和错误信息,数据之间的关系也是扁平化的,缺乏层次性和逻辑性,因此有必要对其进行清理和整合。知识融合包括2部分内容:实体链接和知识融合。通过知识融合,可以消除概念的歧义,剔除冗余和错误概念,从而确保知识的质量。

实体链接

指从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。

一般流程:1)从文本中通过实体抽取得到实体指称项;2)进行实体消歧和共指消解,判断知识库中的同名实体与之表示相同的含义 ;3)在确认知识库中对应的正确实体对象之后,将该实体指称项链链接到知识库中对应实体。

1)实体消歧

实体消歧是专门用于解决同名实体产生歧义问题的技术。实体消歧主要采用聚类法。聚类法是指以实体对象为聚类中心,将所有指向同一目标实体对象的指称项聚集到以该对象为中心的类别下。聚类法消歧的关键问题是如何定义实体对象与指称项之间的相似度,常用方法有4种。

2)共指消解(实体对齐)

共指消解技术主要用于解决多个指称项对应于同一实体对象的问题。在学术界对该问题有多种不同的表述,典型的包括:对象对齐,实体匹配以及实体同义,实体对齐。

3)知识合并

实体消歧和实体对齐更多的是关注知识图谱中的实体,从实体层面上通过各种方法来提升知识图谱的知识质量。知识合并则是从知识图谱整体层面上进行知识的融合,基于现存的知识库和知识图谱来扩大知识图谱的规模,丰富其中蕴含的知识。然而现存的知识库或者知识图谱都是各种机构或者组织根据自己的需求设计创建,其中的知识也存在着多样性和异构性,并且存在很多知识上的重复和错误,因而需要使用知识合并技术来解决这些问题。知识图谱的合并需要解决2个层面的问题:数据层的合并和模式层的合并。知识合并过程种可能出现来自两个数据源的同一实体的属性值却不相同的现象,我们称这种知识合并过程种出现的现象为知识冲突。针对知识冲突问题,可以采用冲突检测与消解以及真值等技术进行消除,再将各个来源的知识关联合并为一个知识图谱。

冲突消解目前的研究方向是利用图谱本身存在的特征,Trisedya等利用属性元组生成属性特征嵌入向量,利用成分函数来表示属性。将多个属性值都转化为单一向量,并将相似的属性映射为相似的向量表示。利用这些属性特征嵌入向量将两个图谱中的实体嵌入转换到同一空间中,计算实体的相似性。

 

知识加工

通过信息抽取,可以从原始预料中提取出实体,关系与属性等知识要素,再经过知识融合,可以消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达。然而,事实本身并不等于知识,要想最终获得结构化,网络化的知识体系,还需要经历知识加工的过程。知识加工主要包括3个方面内容:本体构建,知识推理和质量评估。

本体构建

本体是对概念进行建模的规范,是描述客观世界的抽象模型,以形式化方式对概念及其之间的联系给出明确定义。本体的最大特点在于它是共享的,本体中反映的知识是一种明确定义的共识。本体是同一领域内的不同主体之间进行交流的语义基础。本体是树状结构,相邻层次的节点(概念)之间具有严格的“IsA”关系,这种单纯的关系有助于知识推理,但却不利于表达概念的多样性。在知识图谱中,本体位于模式层,用于描述概念层次体系是知识库中知识的概念模版。本体可以采用人工编辑的方式手动构建(借助本体编辑软件),也可以采用计算机辅助,以数据驱动的方式自动构建,然后采用算法评估和人工审核相结合的方式加以修正和确认。

数据驱动的自动化本体构建过程包含3个阶段:实体并列关系相似度计算,实体上下位关系抽取以及本体的生成。1)实体并列关系相似度是用于考察任意给定的2个实体在多大程度上属于同一概念分类的指标测度,相似度越高,表明这2个实体越有可能属于同一语义类别。所谓并列关系,是相对于纵向的概念隶属关系而言的。2)实体上下位挂席抽取是用于确定概念之间的隶属(IsA)关系,这中关系也称为上下位关系。3)本体生成阶段的主要任务是对各层次得到的概念进行聚类,并对其进行语义类的标定。

知识推理

知识推理是指从知识库中已有的实体关系数据出发,经过计算机推理,建立实体间的新关联,从而拓展和丰富知识网络。针对知识图谱数据量大,关系复杂的特点,提出了面对大规模知识图谱的知识推理方法,并归纳为以下4类:(1)基于图结构和统计规则挖掘的推理(2)基于知识图谱表示学习的推理(3)基于神经网络的推理(4)混合推理

基于图结构和统计规则挖掘的推理

受传统推理地启发,基于知识推理的图结构以及挖掘蕴藏再知识图谱中的规则进行推理的方法得以提出,并在知识推理任务上取得一定效果。路径排序算法(PRA):将实体间的路径作为特征,通过随机行走算法来计算实体间是否存在潜在的关系。耦合路径排序算法(CPRA):提出一种全新的逐次聚合的策略,通过这一策略使得具有强相关度的关系聚合在一起,使用多任务学习策略预测聚合后的关系;针对多跳关系路径的学习提出使用强化学习的框架,设计乐一个具有连续基于知识图谱嵌入状态的策略Agent,通过Agent在知识图谱的向量空间中寻找最有潜力的关系加入路径完成推理。

基于知识图谱表示学习的推理

表示模型将知识图谱中相应的实体和关系用向量,矩阵或者张量的形式表示,表示后进行运算完成知识推理任务。

(1)基于距离的推理模型

Bordes等提出了TransE模型,将所有的实体和关系表示为同一空间下的向量,假设事实元组中头实体向量和关系向量之和应该约等于尾实体的向量。通过随机替换事实元组中的某一项来构建负例。计算元组中头向量和关系向量的和向量与尾向量的距离作为候选实体的得分。尽管TransE模型简单且有效,但其仍然具有许多缺陷,因而衍生出很多基于该模型的方法。Wang等提出TransH模型,每一个关系都有一个特定的超平面,头实体向量和尾实体向量投影至特定的关系超平面计算事实元组得分。Lin等提出TransR模型,针对特定关系引入了空间,Xiao等提出了ManifoldE模型,引入了特定关系参数,尾实体向量有效范围是以头实体向量和关系实体向量的和向量为中心,以特定关系参数为半径的一个超球面。Feng等提出的TransF模型和ManifoldE模型有着相似的思路,放宽了TransE中对实体关系向量的要求,仅需要头实体向量位于尾实体向量和负的关系向量的和向量的方向上,同时尾实体向量也位于头实体向量和关系向量的和向量的方向上。

2)基于语义匹配的推理模型

Nickel等 特出的的RESCAL模型将实体和向量联系起来,从而捕捉其中隐含的语义,潜在因子间的相互作用建模后得到关系表示矩阵,计算实体向量与关系矩阵的乘积来得到元组得分。Yang等提出DistMult模型,每一个关系都表示为向量,再将向量转换为对角矩阵,通过计算头尾实体向量与关系对角矩阵的乘积得到元组的得分。Trouillon等提出Complex模型,引入复数嵌入针对不对称关系建模。在Complex模型中,实体和关系都由复平面中的向量表示,计算头实体向量和根据关系向量建立的对角矩阵以及尾实体向量的共轭这三者的乘积,结果的实部作为元组的得分。Liu等提出ANALOGY模型,利用实体和关系的类比性质来建模,实体由嵌入空间中的向量表示,将关系矩阵处理得到一系列稀疏的对角矩阵,减少了关系矩阵的参数,将头尾实体向量与关系矩阵的积作为元组得分。

3)基于神经网络的推理

基于神经网络的推理方法将知识图谱中事实元组表示为向量形式送入神经网络中,通过训练神经网络不断提高事实元组的得分,最终通过输出得分选择候选实体完成推理。Socher等提出适应于实体间关系推理的神经张量网络模型,用双线性张量层取代神经网络层,实现通过连续的词向量平均表示进而提升模型的表示。

Dettmers等针对知识图谱中大规模与过拟合的问题,设计了参数简洁且计算高效的二维卷积神经网络(ConvE)模型。Vashishth等基于特征排列,新的特征变形以及循环卷积提出InteractE模型。InteractE模型通过使用多种排列输入,更简单的特征变形方法以及循环卷积来取得比ConvE更显著的效果。

 

 

4)混合推理

考虑多种方法的优势来提升推理效果,进而提出了混合推理方法。Guo等提出学习规则增强关系来补全知识图谱的方法,使用规则来进一步改善传统关系学习得到的推理结果,提升知识推理的准确性。Xie等提出一种利用实体描述的知识表示学习的方法,使用了连续词袋模型和深度卷积模型来编码实体的描述语义。之后进一步学习通过三元组和三元组中的实体的描述来学习表示知识。并利用学习到的知识来完成知识推理任务。Wang提出规则嵌入神经网络(ReNN)。ReNN基于局部的推理检测局部模式,由局部模式领域知识的规则来生成规则调制映射。针对规则引起的优化问题,采用两阶段优化策略。引入规则解决了传统神经网络必须受限于数据集的问题,从而提升了推理的准确率。

Zhang等提出了一个名为IterE的迭代学习嵌入和规则的框架,目标是同时学习实体嵌入表示和规则,并利用它们各自的优势来弥补对方的不足。Nie与Sun组合了隐形特征和图特征的优势提出了一个名为文本强化型知识图谱嵌入(TKGE)的组合模型,通过实体,关系和文本来提升推理的表现。Guan等基于一个常识图的常识概念信息提出了一个常识伴随的知识图谱嵌入(KEC)模型,将来自于知识图谱的事实元组通过尝试概念信息修正,从而使得模型不仅仅关注实体间的关联性还有实体存在的常识概念。

5)质量评估

质量评估也是知识库构建技术的重要组成部分。

 

 

知识更新性能

从逻辑上看,知识库的更新包括概念层的更新和数据层的更新。

posted @ 2023-03-06 22:29  sqsq  阅读(407)  评论(0编辑  收藏  举报