知识图谱概述
知识图谱
知识图谱概念及发展
知识图谱概念
-
概念
- 以结构化的形式描述客观世界中概念、实体及其之间的关系,将互联网的信息表达成更接近人类认知世界的形式
-
表示节点
-
实体
- 具有可区别性且独立存在的某种事物
-
概念
- 具有同种特性的实体构成的集合
-
属性
- 用于区分概念的特征,不同概念具有不同的属性
-
知识图谱分类
-
通用知识图谱
- 结构化的百科知识库
-
特定领域知识图谱
- 基于语义技术的行业知识库
发展历程
-
前知识工程时期
-
逻辑知识表示
谓词逻辑(Lp)可以对原子命题做进一步分析,分析出其中的个体词、谓词、量词,研究它们的形式结构的逻辑关系、正确的推理形式和规则。
-
产生式规则
产生式系统是一种更广泛的规则系统,和谓词逻辑有关联,也有区别。它是依据人类大脑记忆模式中的各种知识之间的大量存在的因果关系,并以“IF-THEN”的形式,即产生式规则表示出来的。
-
语义网络
语义网络利用节点和带标记的边结构的有向图描述事件、概念、状况、动作及客体之间的关系。带标记的有向图能十分自然的描述客体之间的关系。
语义网络的基本形式为(节点, 弧, 节点2),节点表示各种事物、概念、情况、属性、动作、状态等,每个节点可以带有若干属性,一般用框架或元组表示。
-
-
专家系统时期
-
知识库
-
框架
其最突出的特点是善于表示结构性知识,能够把知识的内部结构关系以及知识之间的特殊关系表示出来,并把与某个实体或实体集的相关特性都集中在一起。
一个具体事物可由槽中已填入值来描述,具有不同的槽值得框架可以反映某一类事物中的各个具体事物。相关的框架链接在一起形成了一个框架系统,框架系统中由一个框架到另一个框架的转换可以表示状态的变化、推理或其它活动。不同的框架可以共享同一个槽值,这种方法可以把不同角度搜集起来的信息较好的协调起来。
-
-
-
万维网时期
- HTML标记和链接
- 本体的知识表示方法
-
群体智能时期
如维基百科,用户建立知识,体现了互联网大众用户对知识的贡献,成为今天大规模结构化知识图谱的重要基础
-
语义Web
-
RDF(资源描述框架)
资源描述框架(Resource Description Framework, RDF),R代表页面,图片、视频等任何具有URI标识符,D标识属性、特征和资源之间的关系,F标识模型、语言和这些描述的语法。在RDF中,知识总是以三元组的形式出现,即每一份知识都可以被分解为:(subject, predicate, object)。
通过RDF(S)可以表达一些简单的语义,但在更复杂的场景下,RDF(S)语义表达能力显得太弱,还缺少诸多常用的特征。包括对局部值域的属性定义,类、属性、个体的等价性,不相交类的定义,基数约束,关于属性特征的描述等。 -
OWL(万维网本体表述语言)
OWL给我的感觉就是在RDFS的基础上,添加了很多描述类别、属性之间关系的定义或约束。,如两个类是否不相交这样的类属性。
-
-
-
知识图谱时期
目标:将万维网内容转化为能够为智能应用提供动力的机器可理解和计算的知识。
大数据环境下,1.从互联网开放环境的大数据中获得知识,用这些知识提供智能服务互联网行业,同时2.通过互联网可以获得更多的知识。这是一个迭代的相互增强过程,可以实现从互联网信息服务到智能知识服务的跃迁。- 自动获取网络上的知识
- 表示学习
知识图谱技术
指知识图谱建立和应用的技术,是融合认知计算、知识表示与推理、信息检索与抽取、自然语言处理与Web、数据挖掘与机器学习等交叉研究,属于人工智能重要研究领域知识工程的研究范畴
大数据时代地知识图谱已经能够从大数据中自动获取或半自动获取知识,以结构化地形式描述客观世界中地概念,将互联网信息表达成更接近人类认知世界地方式,技术日趋成熟,智能服务的概念也从单纯的收集获取信息转变为自动化知识服务
知识表示与建模
-
基于符号逻辑进行知识表示和推理
-
包含
- 逻辑表示法(一阶逻辑、描述逻辑)
- 产生式表示法
- 框架表示
-
逻辑表示与人类的自然语言比较接近,是最早使用的一种知识表示方法
-
-
基于万维网内容的知识表示,工业界大规模应用的多维基于RDF三元组的表示方法
-
包含
- 基于标签的半结构置标语言XML
- 基于万维网资源语义元数据描述框架RDF
- 基于描述逻辑的本体描述语言OWL
-
-
自然语言处理领域词向量嵌入等技术,采用连续向量方式来表示知识(知识图谱嵌入)
知识表示学习将实体和关系表示为稠密的低维向量实现了对实体和关系的分布式表示,已经成为知识图谱语义链接预测和知识补全的重要方法。
优点:能够显著提升计算效率,有效缓解数据稀疏,实现异质信息融合并有助于实现知识融合,因此对知识库的构建、推理和应用具有重要意义。-
优点
- 以三元组为基础的较为简单实用的知识表示方法满足规模化扩展的要求
- 能够作为大数据分析系统的重要数据基础,帮助这些数据更加易于与深度学习模型集成
-
复杂关系建模
TranE模型,以及对其改进的Trans(H,R,D,G,Sparse)模型,以及利用高斯分布的KG2E模型。
- 受词向量空间对于词汇语义与句法关系存在有趣的平移不变现象的启发
- 将知识库中的关系看作实体间的某种平移向量
-
关系路径建模
-
多步的关系路径也能反映实体之间的语义关系
- 如突破TransE模型孤立学习每个三元组的局限性的Path-based TransE(PTransE)模型
-
考虑关系路径能够极大提升知识表示学习的区分性,提高在知识图谱补全等任务上的性能
-
-
知识获取
-
实体识别与链接
是海量文本分析的核心技术,为解决信息过载提供了有效手段。是知识图谱构建、知识补全与知识应用的核心技术,为计算机类人推理和自然语言理解提供知识基础。
实体识别:文本理解意义的基础,也就是识别文本中指定类别实体的过程,可以检测文本中的新实体,并将其加入到现有知识库中。
实体链接:是识别出文本中提及实体的词或者短语并于知识库中对应实体进行链接的过程。-
传统统计模型方法
-
实体识别
自90年代以来,统计模型一致是实体识别的主流方法
-
最大熵分类模型
-
SVM模型
-
隐马尔可夫模型
-
条件随机场模型
- 实体是识别的代表性统计模型,能够将实体识别问题转化为序列标注问题
-
-
实体链接
-
在传统模型中的核心在于挖掘可用于识别提及目标实体相互关联的证据信息
-
证据信息
- 实体统计信息
- 名字统计信息
- 上下文词语分布
- 实体关联度
- 文章主题
-
-
-
深度学习方法
-
实体识别
-
NN-CRF架构
- CNN/LSTM被用来学习每一个词位置处的向量表示,基于该向量表示NN-CRF解码该位置处的最佳标签
-
滑动窗口分类的思想
- 使用神经网络学习句子中的每一个N-Gram的表示,然后预测该N-Gram是否是一个目标实体
-
-
实体链接
- 在深度学习的核心是构建多类型多模态上下文及知识的同异表示,并建模不同信息、不同证据之间的相互交互,通过将不同类型的信息映射到相同的特征空间,并提供高效的端到端训练算法
-
-
文本挖掘方法
-
应用于半结构Web数据源上的语义知识获取,工作核心是从特定结构构建实体挖掘的特定规则
-
规则本身可能带有不确定性和歧义性,同时目标会有一定的噪音
- 往往基于特定算法来对语义知识进行评分和过滤
-
结构化数据源只包含有限类别的实体,对长尾类型覆盖不足
长尾类型:数据不均匀,有些类别有非常少、甚至没有实体
-
实体获取技术往往采用Bootstrapping策略,充分利用大数据的冗余性,开放式的从Web中获取指定类型的实体
- 开放式实体集和扩展的主要问题是语义漂移问题
-
-
-
-
实体关系学习
实体关系:定义为两个或多个实体间的某种联系,用于描述客观存在的事物之间的关联关系
实体关系学习(关系抽取):就是自动从文本中检测和识别出体之间具有的某种语义关系-
预定义关系抽取:系统所抽取的关系是预先定义好的
-
开放式关系抽取:不预先定义抽取的关系类别,由系统自动从文本中发现并抽取关系
-
限定域关系抽取
- 系统所抽取的关系是预先定义好的,预定义关系个数有限
-
开放域关系抽取
- 不预先定义关系,由系统自动从文本中发现、抽取关系
-
基于规则的关系抽取
- 指首先由通晓语言学知识的专家根据抽取任务的要求设计出一些包含词汇、句法和语义特征的手工规则(或称为模式),然后在文本分析的过程中寻找与这些模式相匹配的实例,从而推导出实体之间的语义关系。
-
基于机器学习的关系抽取
-
无监督关系抽取
- 希望把表示相同关系的模板版聚合起来,不需要人工标注数据
-
有监督关系抽取
- 使用人工标注的训练语料进行训练,目前可以达到最好的抽取效果,但是由于费时费力的人工标注,难以应用到大规模场景
-
弱监督关系抽取
- 利用知识库回标文本来自动获得大量的弱监督数据,目前弱监督关系抽取是关系抽取领域的一个热点
-
-
-
-
事件知识学习
事件:是促使事物状态和关系改变的条件,是动态的、结构化的知识。
事件学习:就是将非结构化文本中自然语言所表达的事件以结构化的形式呈现,对于知识表示、理解、计算和应用意义重大。-
事件识别和抽取
-
基于模式匹配的事件抽取
-
对某种类型事件的识别和抽取是在一些模式的指导下进行的,模式匹配的过程就是事件识别和抽取的过程
-
步骤
-
模式获取
模式准确性是影响整个方法性能的重要因素
- 基于人标注语料的方法
- 弱监督的方法
-
模式匹配
-
-
-
-
基于机器学习的事件抽取
建立在统计模型基础上,一般将事件抽取建模成多分类问题,因此研究的重点在于特征和分类器的选择
-
基于特征
- 研究重点在于如何提取和集成具有区分性的特征,从而产生描述事件实例的各种局部和全局特征,作为特征向量输入分类器
-
基于结构
- 将事件结构看作依存树,抽取任务则相应地转化为依存树结构预测问题,触发词识别和元素抽取可以同时完成
-
基于神经网络
- 利用卷积神经网络模型抽取特征来完成两阶段地识别任务以便更好地考虑事件内部结构和各个元素间地关系
-
-
-
事件检测和追踪
-
基于相似度地方法
- 首先需要定义相似度度量,而后基于此进行聚类或者分类
-
概率统计方法模型
- 需要大量数据地支持,所以这种方法更加适用于历史事件检测
-
-
事件知识库构建
- 事件知识学习地最终目的就是从非结论化地文本数据中抽取结构化的事件表示,构建事件知识库弥补现有知识图谱的动态事件信息缺失问题
-
知识融合
概念:当前互联网大数据具有分布异构的特点,通过知识图谱可以对这些数据资源进行语义标注和链接,建立以知识为中心的资源语义集成服务
-
语义集成
为了能够将不同的知识图谱融合为一个统一、一致、简洁的形式,为使用不同知识图谱的应用程序间的交互建立操作性
-
技术
-
本体匹配(本体映射)
-
大多数方法处理成对的本体
- 其结果从全局看可能存在冲突
-
多文本全体匹配方法
- 匹配多个本体的同时保证结果是全局最优解
-
跨语言本体匹配
-
-
实例匹配(实体对齐)
-
人机协作方法
- 众包和主动学习
-
表示学习技术
-
强化学习技术
-
-
-
流程
-
输入、预处理、匹配、知识融合和输出5个环节
-
预处理
- 主要包括对输入知识库进行清洗和后续步骤的准备
-
匹配
- 本体匹配
- 实例匹配
-
知识融合
- 一般通过冲突检测、真值发现等技术消解知识集成过程中的冲突,再对知识进行关联和合并,最终形成一个一致的结果
-
-
-
知识图谱查询推理
-
知识推理
从给定的知识图谱推导出新的实体跟实体之间的关系
-
基于符号的推理
一般是基于经典逻辑(一阶谓词逻辑或命题逻辑)或者经典逻辑的变异(比如说缺省逻辑)
基于符号的推理可以从一个已有的知识图谱推理出新的实体间关系,可用于建立新知识或者对知识图增进行逻辑的冲突检测。-
基于符号的并行知识推理
- 单机环境下的并行技术以共享内存模型为特点,侧重于提升本体推理的时间效率,适用于对于实时性要求较高的应用场景
-
基于分布式技术的大规模推理
- 可以突破大规模数据的处理界限,这种方法利用多机搭建集群来实现本体推理
-
-
基于统计的推理
一般指关系机器学习方法,即通过统计规律从知识图谱中学习到新的实体间关系
-
在知识计算中的作用
-
链接预测(图谱补全)
-
基于表示学习的方法
- 将知识图谱中的实体与关系统一映射至低维连续向量空间,以刻画它们的潜在语义特征
-
基于图特征的方法
- 借助从知识图谱中抽取出的图特征来预测两个实体间可能存在的不同类型的边(关系)
-
-
模式归纳
-
基于ILP的模式归纳方法
-
基于关联规则挖掘的模式归纳方法
- 利用谓词偏好因子度量方法以及谓词语义相似度学习相反和对称公理;利用模式层信息给规则的挖掘提供更多的语义;对传统关联规则挖掘技术进行了改进
-
基于机器学习的模式归纳方法
- 利用聚类的算法学习关系的定义域和值域;应用统计的方法过滤属性的使用,并找出准确、健壮的模式,用于学习属性的数量约束公理。
-
-
-
-
知识查询
研究如何设计有效的存储模式支持对大规模图数据的有效管理,实现知识图谱中知识高校查询
-
基于关系数据模型的RDF数据存储和查询
-
简单三列表
- 系统通过维护一张巨大的三元组表来管理RDF数据。这张三元组表包含三列,对应存储本体、谓词和客体(或者主体、属性和属性值)
-
水平存储
- 将知识图谱中每一个RDF主体表示为数据库表中的一行。表中的列包括该RDF数据集合中所有的属性
-
属性表
- 降低自连续操作次数,在单张大三元组表之外还支持利用属性表进行RDF数据管理
-
垂直划分策略
- 对RDF数据按照谓词(或属性)分割成若干表的方法
-
全索引策略
- 为了提高简单三列表存储的查询效率
-
-
基于图模型的RDF数据查存储和查询
- 可以最大限度的保持RDF数据的语义信息,也有利于对语义信息的查询
-
知识应用
-
典型应用
-
语义搜索
当前基于关键词的搜索技术在知识图谱的知识支持下可以上升到基于实体和关系的检索
-
优点
- 可以准确地捕获用户搜索意图,进而基于知识图谱中的知识解决传统搜索中遇到的关键字语义多样性及语义消岐的难题
- 通过实体链接实现知识与文档的混合检索
-
-
智能问答
是信息服务的一种高级形式,能够让计算机自动回答用户所提出的问题
-
优点
- 不同于现有的搜索引擎,问答系统返回用户的不再是基于关键词匹配的相关文档排序,而是精准的自然语言形式的答案
-
难点及关键技术
- 准确的语义解析
- 正确理解用户的真实意图
- 对返回答案的评分评定以确定优先级顺序
-
-
可视化决策支持
通过提供统一的图形接口,结合可视化、推理、检索等,为用户提供信息获取的入口
-
关键问题
- 通过可视化辅助用户快速发现业务模式
- 提升可视化组件的交互友好程度
- 大规模图环境下底层算法的效率
-
-
-
通用和领域知识图谱
-
通用知识图谱
- 可以形象地看成一个面向通用领域地结构化地百科知识库
-
领域知识图谱
- 可以看成是一个面向某一特定领域地基于语义技术地行业知识库
-
知识图谱应用
通用知识图谱
-
可以形象地看成一个面向通用领域地“结构化的百科知识库”,其中包含了大量的现实世界中的常识性知识,覆盖面极广
- Dbpedia
- Yago
- Freebase
- WordNet
- zhishi.me
- SSCO
领域知识图谱应用
-
常常用来辅助各种复杂的分析应用或决策支持,在多个领域均有应用,不同领域的构建方案与应用形式则有所不同
-
电子商务
-
以商品为核心,以人、货、场为主要框架
-
应用场景
-
导购
- 让发现更简单
- 与时俱进
- 通过实时学习构建出场景
- 电商平台管控从过去的“巡检”模式升级为发布端实时逐一检查
-
-
-
图书情报
-
聚焦某一特定细分行业,以整合行业内资源为目的的知识图谱
-
提供知识搜索、知识标引、决策支持等形态的知识应用,服务于行业内的从业人员,科研机构及行业决策者
- 上海图书馆打造的家谱服务平台
- 中国农科院聚焦的水稻细分领域
-
-
企业商业
-
通过异常关联挖掘、企业风险评估、关联探索、最终控制人和战略发展等方式为行业客户提供智能服务和风险1管理
- 异常关联挖掘是通过路径分析、关联探索等操作,挖掘目标企业谱系中的异常关联
-
-
创业投资
-
聚焦于工商知识图谱的一部分数据内,创投领域知识图谱主要应用形态包括知识检索以及可视化决策支持
- 知识检索依托创投知识图谱可以在原有知识全文搜索的基础上实现语义搜索与智能问答的应用形态
-
-
生物医疗
-
采用理论研究与实证分析、应用研究相结合的方法,在收集大量资料与数据、阅读文献的基础上梳理和总结经典的医学管理与决策理论以及大数据管理与分析方法的医疗知识图谱以及实现
-
总体技术路线:建立知识表示模型、构建医学知识图谱、提供医学知识服务、研发知识服务系统,具有较强的可行性和创新性
- 构建医学知识表示模型
- 从医学大数据中抽取医学信息
- 进行知识融合,提高知识质量,构建医学知识图谱
-
-
-
发展趋势
如果未来的智能机器拥有一个大脑,知识图谱就是这个大脑中的知识库,对于大数据智能具有重要意义,将对自然语言处理、信息检索和人工智能等领域产生深远影响。
知识图谱作为人工智能技术中的知识容器和孵化器,会对未来AI领域的发展起到关键性的作用
知识图谱技术不单指某一项具体的技术,而是从知识表示抽取、存储、计算、应用等一系列技术的集合
知识图谱构建技术会朝着越来越自动化方向前进
知识图谱也会在越来越多的领域找到能够真正落地的应用场景,在各行各业中解放生产力,助力业务转型
知识获取
- 如何从互联网大数据萃取知识,是构建知识图谱的重要问题
知识融合
- 如何将这些知识有机融合起来,建立更大规模的知识图谱,是实现大数据智能的必经之路
知识应用
- 如何有效实现知识图谱的原因,利用知识图谱实现深度知识推理,提高大规模知识图谱计算效率,需要人们不断锐意发掘用户需求,探索更重要的应用场景,提出新的应用算法
XMind - Trial Version