知识图谱简介

1、概念

什么是知识图谱:知识图谱时由google公司在2012年提出来的一个概念。学学术上定义是:“知识图谱本质上是语义网络(Semanticnetwork)的知识库”。从实际应用的角度,可以简单地把知识图谱理解成多关系图(multi-relationalgraph)。多关系图一般包含多种类型的节点和多种类型的边。在知识图谱里,通常用实体(entity)表示图里的节点,用关系(relation)表示图里的边。

一个完整的知识图谱的构建包含以下几个步骤:1. 定义具体的业务问题  2. 数据的收集& 预处理  3. 知识图谱的设计  4. 把数据存入知识图谱  5. 上层应用的开发,以及系统的评估。

2、知识图谱的构建

知识图谱应用的前提是已经构建好了知识图谱,而构建的前提是需要把数据从不同的数据源中抽提出来。对垂直领域的知识图谱来说,它们的数据源主要来自两种渠道:一种是业务本身的数据,通常存储在公司内部的数据库,以结构化的形式存储;另一种是网络上公开、抓取的数据,这些数据是以网络形式存在的非结构化的数据。信息抽提的难点在于处理非结构化数据。在通过文本构建知识图谱的过程中,主要涉及一下几个方法的自然语言处理技术:(1)实体命名识别(name entity recognition);(2)关系抽提(relationextraction);(3)实体统一(entity resolution);(4)指代消解(coreferenceresolution)

知识图谱的构建过程可以分为自顶向下和自底向上两种方式。自顶向下的构建过程,首先从数据源中学习本体,得到术语、顶层的概念、同义词和层次关系以及相关规则,然后进行实体学习的过程,将实体纳入前面的概念体系中。自底向上的构建过程与此相反,共归纳实体开始,记忆不进行抽象,逐步形成分层的概念体系。在实际的构建过程中,可以先后混合使用两种方式,来提高实体抽取的准确度,后者是更常用的方式。

实体学习也可以称为实体识别(named entity recognition),指的是抽取文本数据中涉及的对象信息。对于实体学习,一个关键的标准是能够把属于同一事物或概念的实体的不同表达方式进行归一化表示,以及区分同一表达式在不同语境中指代的不同实体。其中,前者称为实体对齐,后者可以通过实体充填来解决。

3、知识图谱的存储

知识图谱主要的存储方式有两种:一种是基于RDF(ResourceDescription Framework)的存储,另一种是基于图数据库的存储。RDF提供了一个统一的标准,用于描述实体/资源,RDF形式上表示为SPO三元组(subject—predicate—object),RDF有节点和边组成,节点表示实体、资源和属性,边则表示实体和实体之间的关系,以及实体和属性的关系。图数据库更容易表达现实的业务场景,Neo4j系统是目前使用率最高的图数据库。

4、知识图谱的应用

等构建好知识图谱后,就可以用它来解决具体的问题,也称为知识图谱挖掘。目前知识图谱的应用领域包括知识推理和用户搜索意图两个方面,具体领域有知识存储、数据检验、专家系统、客服机器人、语义搜索、智能推荐、私人助理等。在垂直领域,比如石油领域的知识图谱,仍处于起步阶段。从算法角度来讲,有两种不同的场景:一种是基于规则的,另一种是基于概率的。鉴于目前AI技术的现状,基于规则的方法论还是在垂直领域的应用中占据主导地位,但随着数据量的增加以及方法论的提升,基于概率的模型也将会逐步带来更大的价值。

5、知识图谱开发技术

知识图谱技术源自google,很多知识图谱技术和是知识图谱的资源都是关于的英文的,比如VoCol、Robot、Karma等。但是为了让知识图谱更大地在中国发挥作用,需要开发基于中文的知识图谱技术。比较重要的是知识图谱构建技术,也成为知识图谱建模技术。如何更快更准地从大量结构化和非结构化数据种建立某个特定垂直领域的知识图谱,是目前的技术难点。

目前已经有一些中文的知识图谱,比如,http://www.openkg.cn/,它是个开放的知识图谱,它上面包含了大量的通用知识图谱,

 

5、发展分析

知识图谱的发展还处于初级阶段,在知识库的自动扩展,异构知识处理,推理规则学习,跨语言检索等方面还面临着众多挑战。随着互联网中实体词的增加,知识图库将不断扩充其数据规模并加入实体间关系、实体属性等网状关系结构。

 

https://www.jiqizhixin.com/articles/2018-06-20-4

https://www.jiqizhixin.com/graph/technologies/6e896233-3f15-47a4-9b2e-479d7cc5478b

https://www.jianshu.com/p/cd937f20bf55

https://www.jianshu.com/p/5a9135b6f017

https://github.com/vocol/vocol

https://github.com/ontodev/robot

http://usc-isi-i2.github.io/karma/

https://blog.csdn.net/yimixgg/article/details/80690958#

汉语言处理包HanLP:https://github.com/hankcs/HanLP

中文文本分类:https://github.com/gaussic/text-classification-cnn-rnn

农业知识图谱:https://github.com/qq547276542/Agriculture_KnowledgeGraph

事实三元组抽取:https://github.com/twjiang/fact_triple_extraction

中文自然语言处理相关资料:https://github.com/mengxiaoxu/Awesome-Chinese-NLP

开放中文实体关系抽取:http://www.docin.com/p-1715877509.html

李涛, 王次臣, 李华康. 知识图谱的发展与构建[J].南京理工大学学报, 2017(01):26-38.

posted @ 2022-08-21 10:13  Oliver2022  阅读(375)  评论(0编辑  收藏  举报