知识图谱学习笔记(1)
什么是知识图谱
-
知识图谱是在2012年由谷歌提出的,是一种结构化的语义知识库,用来描述物理世界中的概念以及相互关系。知识图谱的基本组成单位是“实体(Entities)--关系(Relations)-实体(Facts)”三元组。实体之间通过关系相互连结,构成网状的知识结构。在这个网状的知识结构中,节点代表实体,边代表节点之间的关系,还有一些基本信息作为节点的属性。
-
知识图谱按照功能和应用场景可以分为通用知识图谱和领域知识图谱。通用知识图谱面向通用领域,强调知识的广度,针对的使用者主要为普通用户,解决科普类,常识性的问题。特定领域知识图谱面向某一个特定的领域,强调知识的深度,针对的使用者主要为业内人士,解决行业内的问题。
知识图谱有什么作用
-
搜索
传统的搜索是靠网页之间的超链接进行搜索,而通过知识图谱可以进行语义搜索,直接对事物进行搜索,比如人,物,机构,地点等,这些事物可以来自文本,图片,视频,物联网等。比如搜索“Go语言的创造者是谁?”,搜索引擎会把这句话进行分解,得到“Go语言”,“创造者”,再与现有的知识库中的词条进行匹配。这种基于知识图谱的搜索更加便捷准确。
-
问答
知识图谱也广泛应用于人机问答交互中,比如基于语义解析,基于图匹配,基于模式学习,基于表现学习和深度学习的知识图谱模型。
-
辅助大数据分析
知识图谱也可以用于辅助进行数据分析和决策。
如何构建知识图谱
-
建立一个知识图谱首先要获得数据,这些数据就是知识的来源。根据数据的类型可以分为结构化数据,半结构化数据和非结构化数据。结构化的数据为表格,数据库等通常可以直接用来构建知识图谱。非结构化的数据为文本,音频,视频,图片等,半结构化数据是介于结构化数据和非结构化数据之间的一些数据,对于结构化和半结构化的数据,需要进行知识抽取才能建立知识图谱。
- 知识抽取可以分为实体识别,关系抽取,属性抽取等。实体识别指在一段文本中识别那些词代表实体,并且打上标签进行分类;关系抽取指识别实体之间的关系;属性抽取指识别实体的主要属性。
-
当建立一个知识图谱时,需要从多个来源获取数据,这些不同来源的数据可能会存在交叉重叠,同一个概念,实体可能会反复出现。需要通过知识融合吧表示相同概念的实体进行合并,把来源不同的知识融合成为一个知识库。
- 知识融合的主要任务包括实体消歧和指代消解,实体消歧用于解决同名实体产生歧义的问题,指代消解则是为了避免代词指代不清的情况。