02 - 语义网络,语义网,链接数据和知识图谱
转载自:语义网络、语义网、链接数据和知识图谱。本文主要介绍知识图谱相关的四个概念,以及它们之间的异同。
一、语义网络
语义网络,Semantic Network,是上世纪六十年代提出的一种知识表示形式,由相互连接的节点和边组成。节点表示概念或对象,边表示节点与节点之间的关系。
语义网络能够简单直观的表示语义与语义的关系,但也存在如下的缺点:
- 节点和边的取值没有标准,完全由用户自定义;
- 由于缺乏标准,导致多源数据融合困难;
- 无法区分概念节点和对象节点;
- 无法对schema层进行定义。
RDF的提出解决了问题1和问题2,在节点和边的取值上做了约束,统一了标准,为多源数据的融合提供了便利。比如,RDF对is-a关系进行了定义,不管在哪个语义网络中都使用rdf:type表示is-a关系。上图中猫和熊与哺乳动物的关系可以表示为:
猫 rdf:type 哺乳动物 熊 rdf:type 哺乳动物
如何解决问题3和问题4呢?比如有两个语义网络A和B,在A中熊是哺乳动物的实例,在B中熊是哺乳动物的子类,前者是is-a关系,后者是subClassOf关系。当我们建模的角度不同,上述情况经常发生,如果不能区分两者,在进行数据融合时会发生冲突。W3C制定的另外两个标准RDFS和OWL解决了这个问题。对于RDFS和OWL,之后会有详细的介绍,现在只需要知道通过RDFS和OWL中的预定义词汇,可以表示如下知识:
哺乳动物 rdf:type rdfs:Class ## 哺乳动物是一个类 哺乳动物 rdf:type owl:Class ## 同上 熊 rdf:type rdfs:Class ## 熊是一个类 熊 rdfs:subClassOf 哺乳动物 ## 熊是哺乳动物的子类 熊 rdf:type 哺乳动物 ## 熊是哺乳动物的实例
RDF,RDFS/OWL属于语义网技术栈,它们的提出使得语义网克服了语义网络的缺点。
二、语义网
语义网,Semantic Web。万维网诞生之初,网络上的内容只是人类可读,计算机无法理解和处理。比如,我们能够轻松理解网页内容,但是计算机只知道这是一个网页,网页中的图片是关于什么的,网页中的超链接指向的页面和当前页面有何关系,这些计算机都不清楚。语义网正是为了使得网络上的数据变得机器可读而提出的一个通用框架,“Semantic”表示用更丰富的方式表达数据背后的含义,“Web”表示将这些数据相互连接,组成一个庞大的信息网络。
三、链接数据
链接数据,Linked Data,起初是用于定义如何利用语义网技术发布数据,强调在不同的数据集之间创建链接。知识图谱是对链接数据这个概念的进一步包装,可以在开放链接数据项目中体验,通常用来展示当前开放知识图谱的规则、涉及的领域以及知识图谱之间的链接关系。
四、知识图谱
知识图谱,Knowledge Graph,是由本体(Ontology)作为schema层,和RDF数据模型兼容的结构化数据集。用IRI唯一表示的节点都是某个类的实例,每一条边都表示一个关系。以罗纳尔多知识图为例,罗纳尔多是人类的实例,里约热内卢是地点类的实例,用RDF表示就是:
www.kg.com/person/1 rdf:type kg:Person. www.kg.com/place/10086 rdf:type kg:Place.
关系又称为属性,根据是实体与实体的关系还是实体与字面量的关系分为对象属性(Object Property)和数据属性(Data Property)。以罗纳尔多知识图为例,罗纳尔多与里约热内卢的关系属于对象关系,罗纳尔多与全名的关系属于数据属性。
知识图谱和链接数据的区别在于,知识图谱强调有一个本体层定义实体的类型和实体之间的关系,不一定要链接到外部数据。链接数据侧重于不同知识图谱之间的相互链接。另外,知识图谱对数据质量要求较高,能够提供面向终端用户的查询服务。
五、小结
本文介绍了和知识图谱相关的四个概念,以及它们之间的异同。
下一篇文章重点介绍RDF,RDFS/OWL。