03 2022 档案
摘要:对比学习的一个关键思想: 如何构建对比的数据对,更细致的如何构建正样本和负样本,更好的正样本和负样本能够帮助模型更好的理解数据。 一、CIEAR 预训练模型主要解决的是token级别的特征抽取,很少做句子级别的特征抽取。BERT仅仅在词嵌入的表现优秀,但是在句子级别的建模任务表现不一定会有多优秀。本
阅读全文
摘要:一、数据并行(DP ) 1、概念:相同的模型分布在不同的GPU上,在不同的GPU上使用不同的数据。每一张GPU上有相同的参数,在训练的时候每一个GPU训练不同的数据,相当于增大了训练时候的batch_size。 数据并行基于一个假设:所有节点都可以放下整个模型。这个假设在某些模型上(如GPT3)是不
阅读全文
摘要:一、简单理解 判别式模型出现早于生成式模型。 判别式模型其实并没有学习到数据的内容,只是单纯的记住了数据特征来做分类和判断。就像做模拟题,考试时遇到和模拟题一样的题会做,不一样的不会做。 而生成式模型能够学习数据的内容,对样本进行理解。就像真的学会了知识,考试时遇到的题都会做。 二、生成式模型 Ge
阅读全文
摘要:一、SGD(梯度下降) 在多变函数中,梯度是一个方向,梯度的方向指出了函数在给定点上升最快的方向,或者说指引了函数值增大的方向,因此我们只要考虑往梯度的反方向走,就至少能走到极小值,可能能走到全局最小值。 二、SGD with momentum(动量法:梯度累加) 动量累加:震荡方向的梯度相互抵消,
阅读全文
摘要:1、迁移学习(Transfer Learning) 直观理解:站在巨人的肩膀上学习。根据已有经验来解决相似任务,类似于你用骑自行车的经验来学习骑摩托车。 专业理解:将训练好的内容应用到新的任务上,即将源域(被迁移对象)应用到目标域(被赋予经验的领域)。 迁移学习不是具体的模型,更类似于解题思路。 当
阅读全文
摘要:一、分布式词表示(直接使用低维、稠密、连续的向量表示词)(静态的表示) 1、Word2Vec 训练方法:用中心词预测周围词。 局限性:Word2Vec产生的词向量只有每个单词独立的信息,而没有上下文的信息。 2、Glove Global Vector for Word Representation
阅读全文