2023-学习记录18-知识建模

一、知识建模

知识建模就是基于行业的应用属性、知识特点、实际需求,依据知识图谱的模式进行业务抽象和业务建模,主要是实体定义、关系定义、属性定义。

为保证知识图谱质量,通常在建模时需考虑如下几个关键问题:

1、概念划分的合理性,如何描述知识体系和知识点之间的关联关系;

2、属性定义方式,如何在冗余度最低的条件下满足应用和可视化展示;

3、时间、时序等复杂知识标示,通过匿名节点的方式还是边属性的方式进行描述,有何优缺点?

4、后续的知识扩展难度,是否支持概念体系的变更和属性调整?

二、知识存储

知识图谱的原始数据类型一般来说有三类:

· 结构化数据(Structed Data),如关系数据库

· 非结构化数据,如图片、音频、视频

· 半结构化数据,如XML、JSON、百科

目前,主流的的知识存储解决方案包含单一式和混合式存储两种。其存储方式一般有两种选择,一个是通过RDF(资源描述框架)这样的规范存储格式来进行存储,比较常用的有Jena等。

还有一种方法,就是使用图数据库来进行存储,常用的如Neo4j等。

相较而言图数据库在关联查询的效率上会比传统的关系数据存储方式有显著的提高。当我们涉及到2,3度的关联查询,基于知识图谱的查询效率会高出几千倍甚至几百万倍。

除此之外,基于图的存储在设计上会非常灵活,一般只需要局部的改动即可。因此对大数据量的情况,更应用图数据库来进行存储的。

 

三、 信息抽取

信息抽取(infromation extraction)信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。关键技术包括:实体抽取、关系抽取和属性抽取。

1、实体抽取,也称为命名实体识别(named entity recognition,NER),是指从文本数据集中自动识别出命名实体。

当前主流技术为面向开放域(open domain)的实体抽取。

2、关系抽取,为了得到语义信息,从相关语料中提取出实体之间的关联关系,通过关系将实体联系起来,才能够形成网状的知识结构。其技术研究已经从早期的“人工构造语法和语义规则”(模式匹配),“统计机器学习”发展到“面向开放域的信息抽取方法”与“面向封闭领域的方法”相结合。

3、属性抽取,目标是从不同信息源中采集特定实体的属性信息,如针对某个公众人物,可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。采用数据挖掘的方法直接从文本中挖掘实体属性和属性值之间的关系模式,据此实现对属性名和属性值在文本中的定位。

 

四、 知识融合

通过信息抽取,实现从原始数据中获取到了实体、关系以及实体的属性信息后,就需要通过知识融合对数据进行逻辑归属和冗杂/错误过滤。即需要实体链接和知识合并两个流程实现。

1、对非结构化/半结构化数据处理:实体链接(entity linking)的流程是通过给定的实体指称项,通过相似度计算进行实体消歧和共指消解,确认正确实体对象后,再将该实体指称项链接到知识库中对应实体。其中实体消歧解决同名实体产生歧义问题,共指消解解决多个指称对应同一实体对象的问题。

2、对结构化数据处理:知识合并主要涉及“合并外部知识库”,处理数据层和模式层的冲突;以及用RDB2RDF等方法“合并关系数据库”

 

posted @ 2023-05-08 09:21  kuaiquxie  阅读(13)  评论(0编辑  收藏  举报