知识图谱介绍(二)

五、知识获取与数据预处理

5.1知识获取

  • 知识图谱的构建是后续应用的基础,而且构建的前提是需要把数据从不同的数据源中抽取出来。知识获取是构建知识图谱的前提条件,也是自动构建知识图谱的影响核心要素。
  • 数据是知识图谱的根基,直接关系到知识图谱构建的效率和质量。比如,从结构化的数据中构建知识图谱比从非结构化的数据中构建,效率和准确率要高;数据越复杂,噪音越大,构建成本就越高。

5.1数据源选择

        知识图谱构建的首要步骤是确定和获取数据源。数据源的选择直接影响知识图谱的质量和应用范围。通常,数据源可以分为两大类:公开数据集和私有数据。公开数据集,如Wikipedia、Freebase、DBpedia等,提供了丰富的通用知识,适用于构建通用知识图谱。而私有数据,如企业内部数据库、专业期刊等,则更适用于构建特定领域的知识图谱。

        选择数据源时,应考虑数据的可靠性、相关性、完整性和更新频率。可靠性保证了数据的准确性,相关性和完整性直接影响知识图谱的应用价值,而更新频率则关系到知识图谱的时效性。在实践中,通常需要结合多个数据源,以获取更全面和深入的知识覆盖。

数据源:

  • 知识图谱的数据来源除去人工创建的数据外,主要有站内数据、垂直网站数据与百度百科数据三种数据来源。
  • 文本挖掘:
  • 网络爬虫
  • 图像识别
  • 语音识别
  • 物联网传感器数据

5.2数据预处理

数据预处理包括数据清洗、实体分类、实体识别、实体抽取等步骤,目的是将原始数据转换为适合构建知识图谱的格式。

5.2.1数据清洗

获取数据后,下一步是数据清洗。这一过程涉及从原始数据中移除错误、重复或不完整的信息。数据清洗的方法包括去噪声、数据规范化、缺失值处理等。去噪声是移除数据集中的错误和无关数据,例如,去除格式错误的记录或非相关领域的信息。数据规范化涉及将数据转换为一致的格式,如统一日期格式、货币单位等。对于缺失值,可以采用插值、预测或删除不完整记录的方法处理。

数据清洗不仅提高了数据的质量,还能增强后续处理的效率和准确性。因此,这一步骤在知识图谱构建中至关重要。

import pandas as pd

# 示例:清洗和准备数据
def clean_data(data):
    # 数据清洗逻辑
    cleaned_data = data.dropna() # 去除空值
    return cleaned_data

# 假设我们有一个原始数据集
raw_data = pd.read_csv('example_dataset.csv')
cleaned_data = clean_data(raw_data)

5.2.2实体分类

实体分类主要用于处理百度百科的数据。因为百度百科的数据没有类别信息,需要先对词条进行实体类型的识别。具体实现是为每种实体类型训练一个实体分类器,准确率可衡量,并且互不影响,可以快速拓展。

 实体分类器模型示意图,整体采用启发式方法:

  • 构建基于规则池的分类器,生成训练数据,训练DNN模型(self-attention)文本分类模型;
  • DNN分类器与规则分类器互相扩充迭代(一到两轮),最终线上使用规则分类器。
  • 生成过程中会用上百科词条中的描述文本、infobox字段、超链接词条、词条标签等信息作为特征。

5.2.3实体识别抽取

        实体识别是指从文本中识别出知识图谱中的实体,这是构建知识图谱的核心步骤之一。实体识别通常依赖于自然语言处理(NLP)技术,特别是命名实体识别(NER)。NER技术能够从非结构化的文本中识别出具有特定意义的片段,如人名、地名、机构名等。

       实体识别的方法多种多样,包括基于规则的方法、统计模型以及近年来兴起的基于深度学习的方法。基于规则的方法依赖于预定义的规则来识别实体,适用于结构化程度较高的领域。统计模型,如隐马尔可夫模型(HMM)、条件随机场(CRF)等,通过学习样本数据中的统计特征来识别实体。而基于深度学习的方法,如使用长短时记忆网络(LSTM)或BERT等预训练模型,能够更有效地处理语言的复杂性和多样性,提高识别的准确率和鲁棒性。

      实体识别不仅需要高准确性,还要考虑到速度和可扩展性,特别是在处理大规模数据集时。因此,选择合适的实体识别技术和优化算法是至关重要的。

  实体抽取,是指从数据中识别和抽取实体的属性与关系信息。对不同类型、不同数据源的数据,分别开发属性/关系抽取脚本。

      由易到难,主要包括以下三类抽取方式:

(1)结构化数据抽取:大部分站内/垂直网站的信息,以及部分百度百科的信息,是结构化的数据,比较易于抽取。源数据结构和实体类型定义(即目标数据结构)多种多样。为了提高开发效率,将结构化数据的抽取流程进行抽象,并写成统一的框架,利用策略模式将抽取的具体规则用groovy脚本来实现。当扩展新的来源和目标实体类型时,只需实现新的抽取脚本。

(2)半结构化数据抽取:百度百科中存在很多表格、列表等格式不完全规则的半结构化信息,抽取有一定难度。比如,半结构化信息中存在一些质量较高的统计性的数据。对于这类数据,采用基于有监督学习的包装器归纳方法进行抽取。

(3)非结构化数据挖掘:百度百科以及站内的描述等大量文本中,也存在有很多宝贵的信息。对于这类数据的实体挖掘,需要借助自然语言处理的手段(主要是实体识别等服务)。

  • 一方面,通过实体链接服务把从文本中抽取得到的实体对象,链接到实体库中对应的正确实体对象,以挖掘文本中关系。
  • 另一方面,利用NER(name entity recognition/实体识别)技术来识别来挖掘文本中的实体。

5.2.4实体关系识别

实体关系识别是从清洗后的数据中提取实体和关系。这里以Python和PyTorch实现一个简单的命名实体识别模型为例

import torch
import torch.nn as nn
import torch.optim as optim

# 示例:定义一个简单的命名实体识别模型
class NERModel(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_dim):
        super(NERModel, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embedding_dim)
        self.lstm = nn.LSTM(embedding_dim, hidden_dim, batch_first=True)
        self.fc = nn.Linear(hidden_dim, vocab_size)

    def forward(self, x):
        embedded = self.embedding(x)
        lstm_out, _ = self.lstm(embedded)
        out = self.fc(lstm_out)
        return out

# 初始化模型、损失函数和优化器
model = NERModel(vocab_size=1000, embedding_dim=64, hidden_dim=128)
loss_function = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

六、知识抽取

知识抽取:从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达。

信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。涉及的关键技术包括:实体抽取、关系抽取和属性抽取,知识取的主要任务:
(1)实体识别与抽取

任务:识别出待处理文本中七类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。

两个子任务:实体边界识别和确定实体类型。

(2)关系抽取

任务:关系抽取是从文本中抽取出两个或多个实体之间的语义关系。它是信息抽取研究领域的任务之一。

(3)属性抽取

任务:对一个给定的实体从非结构化文本中抽取出实体的属性及其属性值形成结构化数据。

6.1抽取流程

 

 6.2知识抽取技术线路

 

 6.3实体识别、关系抽取、属性抽取、事件抽取

 6.3.1实体识别

在知识图谱领域,实体(Entity)的技术实战涉及到从复杂数据中识别、分类和关联实体的过程。这一过程核心依赖于数据挖掘、自然语言处理(NLP)和机器学习等技术。

也称为命名实体识别(named entity recognition,NER),是指从文本数据集中自动识别出命名实体.

例:通过实体抽取我们可以从其中抽取出四个实体:“非洲”、“中国海军”、“冷锋”、“战狼”。

6.3.1.1实体识别技术

实体识别(Named Entity Recognition, NER)是从无结构的文本数据中识别出具体实体(如人名、地点、机构名等)的过程。

(1)技术实战:基于BiLSTM-CRF的实体识别:

双向长短时记忆网络(BiLSTM)与条件随机场(CRF)结合的模型在NER任务中表现优异。BiLSTM能够捕获文本中的长距离依赖关系,而CRF层可以利用相邻标签之间的约束关系来提高标注的准确性。

(2)实际案例:

在一项金融文本分析项目中,使用BiLSTM-CRF模型从财经新闻文章中识别出相关公司名、股票代码和经济指标。该模型首先通过BiLSTM层处理输入文本,捕获上下文信息,然后CRF层基于BiLSTM的输出进行精确的标签预测。

6.3.1.2实体链接技术

实体链接(Entity Linking)指的是将文本中识别出的实体与知识库中的对应实体相连接。

(1)技术实战:基于图神经网络的实体链接:

图神经网络(GNN)能够有效处理图结构数据,适用于实现复杂的实体链接任务。通过将实体和知识库中的概念以图的形式表示,GNN可以学习实体之间的复杂关系。

(2)实际案例:

在一个医疗知识图谱项目中,利用GNN实现了症状和疾病之间的链接。通过将症状描述与医疗知识库中的相关疾病匹配,该技术帮助医生快速找到可能的疾病原因,并为病人提供更准确的诊断建议。

6.3.1.2实体消歧技术

实体消歧(Entity Disambiguation)是指在多个含义相似或相同的实体中,确定文本中提到的具体实体。

(1)技术实战:基于上下文的实体消歧:

利用机器学习模型,尤其是深度学习模型,如BERT,通过分析实体周围的上下文信息,来确定实体的具体含义。

(2)实际案例:

在一个在线新闻平台的推荐系统中,对于多义词“苹果”,系统需要根据上下文判断是指“苹果公司”还是水果“苹果”。通过使用预训练的BERT模型分析实体周围的上下文,系统能够正确识别实体含义,进而提供更相关的新闻内容。

 6.3.2关系抽取

在知识图谱的构建和应用中,关系(Relationship)的识别和分析是一个技术挑战。关系不仅连接着不同的实体,而且在理解复杂语义和构建深层次知识结构方面扮演着关键角色。

文本语料经过实体抽取之后,得到的是一系列离散的命名实体。为了得到语义信息,还需要从相关语料中提取出实体之间的关联关系,通过关系将实体联系起来,才能够形成网状的知识结构。这就是关系抽取需要做的事,如下图所示。

6.3.2.1关系抽取技术

关系抽取(Relation Extraction)指的是从文本等非结构化数据中自动识别实体之间的语义关系。

(1)技术实战:基于深度学习的关系抽取

近年来,基于深度学习的方法在关系抽取领域取得了显著的进步。特别是利用预训练语言模型,如BERT,可以有效地捕捉文本中的深层语义信息。

(2)实际案例:

在一项科研文献分析项目中,研究人员使用基于BERT的模型来识别研究论文中的关键实体(如实验方法、化合物、疾病等)及其关系。通过这种方式,他们能够自动构建起科研知识图谱,加速科学研究的文献回顾过程。

6.3.2.2关系分类技术

关系分类(Relation Classification)是指在已识别的实体对之间分类其具体关系类型的过程。

(1)技术实战:基于卷积神经网络的关系分类

卷积神经网络(CNN)在处理文本数据时,能够有效捕捉局部特征。通过将文本转换为词向量表示,CNN可以学习到用于关系分类的关键特征。

(2)实际案例:

在一个企业知识图谱的构建项目中,开发团队使用CNN来分类公司间的不同业务关系,如合作、竞争等。这有助于企业更好地理解市场环境和业务机会。

6.3.2.3关系网络分析技术

关系网络分析(Relation Network Analysis)涉及到分析实体间关系的网络结构,以揭示更深层次的模式和洞察。

(1)技术实战:基于图神经网络的关系网络分析

图神经网络(GNN)特别适合处理图结构数据,能够在关系网络分析中发挥重要作用。

(2)实际案例:

在社交媒体分析中,利用GNN可以揭示用户之间的互动模式和影响力流动。例如,分析推特上的用户互动,可以识别出意见领袖和关键话题,对于舆情分析和市场推广策略制定具有重要意义。

6.3.3属性抽取

在知识图谱中,属性(Attribute)的准确抽取和应用对于丰富实体信息、提高知识图谱的质量和实用性具有重要意义。

属性抽取的目标是从不同信息源中采集特定实体的属性信息,如针对某个公众人物,可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。

6.3.3.1属性抽取技术

属性抽取是指从文本等非结构化数据中提取出与实体相关的详细信息的过程。

(1)技术实战:基于深度学习的属性抽取

随着深度学习技术的发展,特别是预训练语言模型(如BERT)的出现,属性抽取的精度和效率得到了显著提升。这些模型能够理解复杂的上下文信息,从而更准确地抽取出相关属性。

(2)实际案例:

在一个电商平台的产品知识图谱项目中,利用基于BERT的模型从产品描述中抽取出产品的关键属性信息,如品牌、尺寸、颜色等。这些属性信息被用于改进产品推荐算法和提升搜索结果的相关性。

6.3.3.2属性分类技术

属性分类涉及将抽取出的属性信息分类到预定义的类别中。

(1)技术实战:基于机器学习的属性分类

机器学习,特别是监督学习方法,在属性分类任务中表现良好。通过训练样本学习属性与其类别之间的关系,模型能够自动进行属性分类。

(2)实际案例:

在一个医疗健康知识图谱的构建中,使用监督学习模型对疾病实体的不同属性进行分类,如症状、治疗方法、药物等。这有助于构建更为详尽和准确的医疗知识图谱,支持临床决策辅助系统。

6.3.3.3属性关联分析技术

属性关联分析旨在分析属性之间的相互关系和模式。

(1)技术实战:基于数据挖掘的属性关联分析

数据挖掘技术,如关联规则挖掘、聚类分析等,可以用来发现属性之间的潜在关联和模式。

(2)实际案例:

在市场分析领域,通过关联规则挖掘技术分析消费者购买行为中的属性模式,如购买某一品牌产品的消费者倾向于购买哪些类型的附加产品。这样的分析对于制定营销策略和优化库存管理非常有价值。

6.3.3.4属性融合技术

属性融合是指将来自不同来源的属性信息整合到一起,形成统一和全面的实体视图。

(1)技术实战:基于语义技术的属性融合

语义技术,如本体论(Ontologies)和语义标注,对于整合和统一不同来源的属性信息非常有效。

(2)实际案例:

在一个多源数据融合的旅游知识图谱项目中,利用本体论将来自不同旅游网站的酒店信息进行融合,统一了酒店的属性描述(如位置、价格、设施等),为用户提供了更为全面和一致的信息。

七、知识融合

知识融合主要解决实体对齐(Object Alignment) 的问题。完成实体抽取后,存在实体ID不同但代表真实世界中同一对象的情况。知识融合即是将这些实体合并成一个具有全局唯一标:识的实体对象,添加到知识图谱中。

知识融合:包含实体链接、知识合并

知识融合(也称本体对齐、本体匹配、实体对齐),即合并两个知识图谱(本体),基本的问题都是研究怎样将来自多个来源的关于同一个实体或概念的描述信息融合起来。需要确认的是:

  • 等价实例:实体的匹配,左右两个人是同一个人
  • 等价类/子类:摇滚歌手是歌手的子类
  • 等价属性/子属性:出生于出生日期是等价的属性

7.1 实体链接

实体链接(entity linking)是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。其基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。

实体链接的流程:

  • 从文本中通过实体抽取得到实体指称项。
  • 进行实体消歧和共指消解,判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义。
  • 在确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体。

 7.2 实体统一(共指消解)

    共指消解:主要用于解决多个指称对应同一实体对象的问题。在一次会话中,多个指称可能指向的是同一实体对象。利用共指消解技术,可以将这些指称项关联(合并)到正确的实体对象,由于该问题在信息检索和自然语言处理等领域具有特殊的重要性,吸引了大量的研究努力。共指消解还有一些其他的名字,比如对象对齐、实体匹配和实体同义。

案例:

 在文本中可能同一个实体会有不同的写法,比如说“LBJ”就是詹姆斯的缩写,因此“勒布朗詹姆斯”和“LBJ”指的就是同一个实体,实体统一就是处理这样问题的一项技术。

7.3实体消歧(指代消解)

实体消歧:是专门用于解决同名实体产生歧义问题的技术,通过实体消歧,就可以根据当前的语境,准确建立实体链接,实体消歧主要采用聚类法。其实也可以看做基于上下文的分类问题,类似于词性消歧和词义消歧。

实体消歧的本质在于一个词有很多可能的意思,也就是在不同的上下文中所表达的含义不太一样。如:我的手机是苹果。我喜欢吃苹果

指代消解跟实体统一类似,都是处理同一个实体的问题。比如说文本中的“他”其实指的就是“勒布朗詹姆斯”。所以指代消解要做的事情就是,找出这些代词,都指的是哪个实体。
指代消解和实体统一是知识抽取中比较难的环节。

7.3.1 基于词典的词义消歧

基于词典的词义消歧方法研究的早期代表工作是Lesk 于1986 的工作。给定某个待消解词及其上下文,该工作的思想是计算语义词典中各个词义的定义与上下文之间的覆盖度,选择覆盖度最大的作为待消解词在其上下文下的正确词义。但由于词典中词义的定义通常比较简洁,这使得与待消解词的上下文得到的覆盖度为0,造成消歧性能不高。

7.3.2 有监督词义消歧

有监督的消歧方法使用词义标注语料来建立消歧模型,研究的重点在于特征的表示。常见的上下文特征可以归纳为三个类型:

(1)词汇特征通常指待消解词上下窗口内出现的词及其词性;

(2)句法特征利用待消解词在上下文中的句法关系特征,如动-宾关系、是否带主/宾语、主/宾语组块类型、主/宾语中心词等;

(3)语义特征在句法关系的基础上添加了语义类信息,如主/宾语中心词的语义类,甚至还可以是语义角色标注类信息。

7.3.3 无监督和半监督词义消歧

虽然有监督的消歧方法能够取得较好的消歧性能,但需要大量的人工标注语料,费时费力。为了克服对大规模语料的需要,半监督或无监督方法仅需要少量或不需要人工标注语料。一般说来,虽然半监督或无监督方法不需要大量的人工标注数据,但依赖于一个大规模的未标注语料,以及在该语料上的句法分析结果。

7.4知识合并

实体链接链接的是我们从半结构化数据和非结构化数据那里通过信息抽取提取出来的数据。

更方便的数据来源:结构化数据,如外部知识库和关系数据库。对于这部分结构化数据的处理,就是知识合并的内容。一般来说知识合并主要分为两种:合并外部知识库和合并关系数据库。

7.4.1 合并外部知识库

(1)数据层的融合,包括实体的指称、属性、关系以及所属类别等,主要的问题是如何避免实例以及关系的冲突问题,造成不必要的冗余。

(2)模式层的融合,将新得到的本体融入已有的本体库中,一般有以下四个步骤:获取知识->概念匹配->实体匹配->知识评估。

7.4.2 合并关系数据库

在知识图谱构建过程中,一个重要的高质量知识来源是企业或者机构自己的关系数据库。为了将这些结构化的历史数据融入到知识图谱中,可以采用资源描述框架(RDF)作为数据模型。业界和学术界将这一数据转换过程形象地称为RDB2RDF,其实质就是将关系数据库的数据换成RDF的三元组数据。(工具:D2RQ)。

八、知识加工

知识加工的概念:

对信息抽取/知识融合后得到的“事实”进行知识推理以拓展现有知识、得到新知识。

知识加工的价值:

通过信息抽取,可以从原始语料中提取出实体、关系与属性等知识要素。再经过知识融合,可以消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达。然而,事实本身并不等于知识,要想最终获得结构化、网络化的知识体系,还需要经历知识加工的过程。知识加工主要包括三方面内容:本体构建(本体抽取)、知识推理和质量评估。

8.1本体构建(本体抽取)

什么是本体?

定义:源于哲学的概念,知识工程学者借用了这个概念,在开发知识系统时用于领域知识的获取。本体是用于描述一个领域的术语集合,其组织结构是层次结构化的。简而言之,本体是用于描述一个领域的数据集合,是知识库的骨架。

作用:获取、描述和表示相关领域的知识,提供对该领域知识的共同理解,确定领域内共同认可的词汇,提供该领域特定的概念定义和概念之间的关系,提供该领域中发生的活动以及该领域的主要理论和基本原理,达到人机交流的效果。

本体的构建方法:IDEF-5方法、Methontology方法、七步法

8.2知识推理

所谓推理就是通过各种方法获取新的知识或者结论。知识推理主要是利用现有知识图谱已存在的事实或者语料,运用算法工具,推理出实体之间的关联的关系,自动产生新的知识,补充缺失的事实,完善知识图谱。

当然知识推理的对象也并不局限于实体间的关系,也可以是实体的属性值,本体的概念层次关系等。

  • 推理属性值:已知某实体的生日属性,可以通过推理得到该实体的年龄属性;
  • 推理概念:已知(老虎,科,猫科)和(猫科,目,食肉目)可以推出(老虎,目,食肉目)

 推理的算法:

  • 基于知识表达的关系推理技术;
  • 基于概率图模型的关系推理技术路线示意图;
  • 基于深度学习的关系推理技术路线示意图。

8.3质量评估

质量评估也是知识库构建技术的重要组成部分,这一部分存在的意义在于:可以对知识的可信度进行量化,通过舍弃置信度较低的知识来保障知识库的质量。

九、知识更新

知识库的更新包括概念层的更新和数据层的更新。

  • 概念层的更新:新增数据后获得了新的概念,需要自动将新的概念添加到知识库的概念层中。
  • 数据层的更新:主要是新增或更新实体、关系、属性值,对数据层进行更新需要考虑数据源的可靠性、数据的一致性(是否存在矛盾或冗杂等问题)等可靠数据源,并选择在各数据源中出现频率高的事实和属性加入知识库。

知识图谱的内容更新有两种方式:

  • 全面更新:指以更新后的全部数据为输入,从零开始构建知识图谱。这种方法比较简单,但资源消耗大,而且需要耗费大量人力资源进行系统维护;
  • 增量更新:以当前新增数据为输入,向现有知识图谱中添加新增知识。这种方式资源消耗小,但目前仍需要大量人工干预(定义规则等),因此实施起来十分困难。

 

十、知识管理

 知识管理:

 知识融合:

 知识存储:

posted on 2024-02-27 16:55  uestc2007  阅读(12)  评论(0编辑  收藏  举报

导航