知识表示学习笔记

1、什么是知识
信息是指外部的客观事实。举例:这里有一瓶水,它现在是7°。
知识是对外部客观规律的归纳和总结。举例:水在零度的时候会结冰。
在信息的基础上,建立实体之间的联系,就能行成 “知识”。当然,我认为叫事实(Fact)更为合适。换句话说,知识图谱是由一条条知识组成,每条知识表示为一个SPO三元组(Subject-Predicate-Object)。
·····················································
数据:数据是事实、信号或符号的集合。在这种形式下,数据可能是原始、不一致或杂乱的。因此,这种数据没有用。
信息:信息是按一致的方式整理和排序的数据集合。信息形式的数据变得更有用,因为它很容易存储和检索。
知识:知识是信息及其相关上下文的集合。上下文表现为不断收集的信息集之间的关系。知识是处理一些信息的经验结果。
智慧:智慧是根据知识来选择达到目标结果的最佳方式的能力。智慧是对达到某个成功结果的早期尝试的经验结果或知识

2、什么是表示学习?
其实我们早就在频繁使用了,比如词向量embedding,这种将研究对象的语义信息表示为稠密低维的实值向量的形式就叫表示学习。
表示学习就是把图像、文本、语音等的语义信息表示为低维稠密的实体向量,即Embedding。Embedding是大家都熟知的,自从13年出现的word2vec,Embedding成为NLP任务的标配。
3、什么是知识表示学习?
知识表示学习(KRL) 就是面向知识库中实体和关系的表示学习,通过将实体或关系投影到低维向量空间,能够实现对实体和关系的语义信息的表示,可以高效地计算实体、关系及其之间的复杂语义关联。
4、知识表示学习产生的作用?
(1)显著提高计算效率。 简单地基于图算法计算实体间的语义和推理关系,其计算复杂度高、可扩展性差;而表示学习得到的分布式表示,则能够高效地实现语义相似度计算等操作。
(2)有效缓解数据稀疏。 一方面将每个对象投影到低维的稠密向量空间;另一方面在投影过程中也可以借用高频对象的语义信息帮助低频对象的语义表示,捕获长尾分布。
(3)实现异质信息融合。 将不同来源的对象投影到同一语义空间中,就能够建立统一的表示空间。
5、知识库表示的定义
知识库表示为 G=(E, R, S),其中 E={e1​,e2​,⋯,eE​}是实体集合, R={r1​,r2​,⋯,rR​}是关系集合,S是三元组集合,表示为(h, r, t)
6、长尾分布
拥有极低值的个体,数量却占总体的绝大多数。尾巴很长的分布。那么尾巴很长很厚的分布有什么特殊的呢?有两方面:一方面,这种分布会使得你的采样不准,估值不准,因为尾部占了很大部分。另一方面,尾部的数据少,人们对它的了解就少,那么如果它是有害的,那么它的破坏力就非常大,因为人们对它的预防措施和经验比较少。也要所谓的二八法则。
7、独热表示
独热方法(one-hot)是比较简单的数据表示方法。简单的说,独热表示法就是给每一个词一个单独的位置,这个位置是这个词独占的。比如我们对下面3个词:手机、电话、电脑
进行编码。通常的情况是把0,1,2分别赋值给这3个词。但是这样的赋值可能会被认为电脑>电话>手机,因为优先级的关系。
所以独热的表示方法被引入。独热编码的编码只是编码,而与权值没有关系。比如上面的3个词独热编码是:1,2,4。二进制分别对应的是001,010和100。
8、词袋模型例子
下面给出两个简单的文本文档如下:

John likes to watch movies. Mary likes too.
John also likes to watch football games.

基于上述两个文档中出现的单词,构建如下一个词典 (dictionary):

{"John": 1, "likes": 2,"to": 3, "watch": 4, "movies": 5,"also": 6, "football": 7, "games": 8,"Mary": 9, "too": 10}

上面的词典中包含10个单词, 每个单词有唯一的索引, 那么每个文本我们可以使用一个10维的向量来表示。如下:

[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]
[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

向量的维度根据词典中不重复词的个数确定

向量中每个元素顺序与原来文本中单词出现的顺序没有关系,与词典中的顺序一一对应

向量中每个数字是词典中每个单词在文本中出现的频率---即词频表示

9、元知识的定义
目前对元知识的定义,在学术界还没有一个严格的概念。通常来说,元知识就是“关于知识的知识”。

元知识可用来描述一类知识或知识集合所包含的内容、基本结构和一般特征。没有元知识, 人们无法描述知识、使用知识和认识知识。在自动控制与人工智能等系统领域中,一般把使用和控制该系统领域知识的知识称为元知识。元知识不是领域知识,不能解决具体知识领域问题;而是关于各领域知识的性质、结构、功能、特点、规律、组成与使用的知识, 是管理、控制和使用领域知识的知识。

元知识是思想和意识的核心,如果没有掌握元知识的,就不能学习和认知基本的知识,元知识对于人们认知系统的建立起着重要作用。人工智能和深度学习领域研究各种各样的智能系统,自主学习机制均是以模拟人脑思维活动为目的, 没有学习元知识的能力的智能系统起码不能算是一个智能系统。

元知识,是指设计大型专家系统时,有时把知识分为两个层次:知识集及控制知识集(知识的知识)。后者称为元知识。
10、知识表示学习思维导图

posted @ 2022-08-25 17:15  秦0710  阅读(110)  评论(0编辑  收藏  举报