随笔分类 - 深度学习
摘要:一、transformer的架构图 主要分为两大块,Encoders和Decoders,两块分别由6个Encoder和Decoder组成。其实Encoders的功能就是抽取特征的,抽取出来的特征就交给Decoders,Decoders用Encoders抽取到的特征去做具体的任务,类比到常见的机器学习
阅读全文
摘要:一、softmax函数公式 softmax用于多分类过程中,它将多个神经元的输出,映射到(0,1)区间内,可以看成概率来理解,从而来进行多分类。假设我们有一个数组Z,Zi表示Z中的第i个元素,那么这个元素的softmax值就是如下: Softmax函数可以将上一层的原始数据进行归一化,转化为一个【0
阅读全文
摘要:一、什么是图灵机? 图灵机(Turing machine),是艾伦・麦席森・图灵(1912-1954年)于1936年提出的一种抽象的计算模型,即将人们使用纸笔进行数学运算的过程进行抽象,由一个虚拟的机器替代人类进行复杂的数学运算。它有一条无限长的纸带,纸带分成了一个一个的小方格,每个方格有不同的颜色
阅读全文
摘要:一、MAP(平均精度均值) AP表示Average Precision 其实求的就是PR曲线下面的面积。 以A和E客户为例子画图计算: 3、代码 https://github.com/sparklego/ml/blob/master/metrics/MAP.py 二、nDCG(归一化折损累积增益)
阅读全文
摘要:一、什么是attention机制 Attention机制:又称为注意力机制,顾名思义,是一种能让模型对重要信息重点关注并充分学习吸收的技术.通俗的讲就是把注意力集中放在重要的点上,而忽略其他不重要的因素。其中重要程度的判断取决于应用场景,拿个现实生活中的例子,比如1000个人眼中有1000个哈姆雷特
阅读全文
摘要:一、概述: GRU(Gate Recurrent Unit)是LSTM网络的一种效果很好的变体,它较LSTM网络的结构更加简单,而且效果也很好,因此也是当前非常流形的一种网络。GRU既然是LSTM的变体,因此也是可以解决RNN网络中的长依赖问题。 在LSTM中引入了三个门函数:输入门、遗忘门和输出门
阅读全文
摘要:本文通过让LSTM学习字母表,来预测下一个字母,详细的请参考: https://blog.csdn.net/zwqjoy/article/details/80493341 https://machinelearningmastery.com/understanding-stateful-lstm-r
阅读全文
摘要:一、Sateful参数介绍 在Keras调用LSTM的参数中,有一个stateful参数,默认是False,也就是无状态模式stateless,为True的话就是有状态模式stateful,所以这里我们就归为两种模式: 有状态模型(stateful LSTM) 无状态模型(stateless LST
阅读全文
摘要:一、LSTM原理介绍 RNN虽然理论上也能循环处理长序列,但是由于其结构简单,单元里面只是一个基于tanh激活函数的前馈网络在循环,对于长序列中的哪些信息需要记忆、哪些序列需要忘记,RNN是无法处理的。序列越长,较早的信息就应该忘记,由新的信息来代替,因为上下文语境意境发生了变化,既然RNN无法处理
阅读全文
摘要:一、背景介绍 BERT和RoBERTa在文本语义相似度等句子对的回归任务上,已经达到了SOTA的结果。但是,它们都需要把两个句子同时喂到网络中,这样会导致巨大的计算开销:从10000个句子中找出最相似的句子对,大概需要5000万(C100002=49,995,000)个推理计算,在V100GPU上耗
阅读全文
摘要:一、Layer Normalization公式 1)计算各层的期望μ和标注差σ l表示第l个隐藏层,H表示该层的节点数,a表示某一个节点在激活前的值,即a=w*x。 2)标准化 g和b分别表示增益和偏置参数,可以纳入训练随样本一群训练。 3)加入激活函数输出 二、Conditional Layer
阅读全文
摘要:一、图示两种方式的不同 LN:Layer Normalization,LN是“横”着来的,对一个样本,不同的神经元neuron间做归一化。 BN:Batch Normalization,BN是“竖”着来的,各个维度做归一化,所以与batch size有关系。 二者提出的目的都是为了加快模型收敛,减少
阅读全文
摘要:一、背景与算法介绍 Transformer结构被广泛应用与自然语言处理中,并且在许多任务上都产生了当前最好的效果。为了达到进一步的效果,研究人员已经开始训练更大的Transformer模型。在某些报告的最大配置中,每层参数的数量超过了5亿(0.5B),而层的数量增加到了64层。Transformer
阅读全文
摘要:一、概述 近邻搜索在计算机科学中是一个非常基础的问题,在信息检索、模式识别、机器学习、聚类等领域有着广泛的应用。如果在d维空间中,我们有n个数据点,采用暴力搜索寻找最近邻的时间复杂度为O(dn)。当前我们的数据量越来越大,因此我们需要一些新的数据结构来查找最近邻,使得任意给定一个数据就能快速找到近邻
阅读全文
摘要:前序: Google AI最新出品的论文Reformer 在ICLR 2020会议上获得高分,论文中对当前暴热的Transformer做两点革新:一个是局部敏感哈希(LSH);一个是可逆残差网络代替标准残差网络。本文主要介绍变革的第二部分,可逆残差网络。先从神经网络的反向传播讲起,然后是标准残差网络
阅读全文
paper阅读:UniLM(Unified Language Model Pre-training for Natural Language Understanding and Generation)
摘要:概述: UniLM是微软研究院在Bert的基础上,最新产出的预训练语言模型,被称为统一预训练语言模型。它可以完成单向、序列到序列和双向预测任务,可以说是结合了AR和AE两种语言模型的优点,Unilm在抽象摘要、生成式问题回答和语言生成数据集的抽样领域取得了最优秀的成绩。 一、AR与AE语言模型 AR
阅读全文
摘要:除了之前较为流行的RELU激活函数,最近又新出了几个效果较好的激活函数 一、BERT激活函数 - GELU(gaussian error linear units)高斯误差线性单元 数学公式如下: X是服从标准正态分布的变量。 近似的数学计算公式如下: 函数图如下: 橙色曲线为:GELU 蓝色曲线为
阅读全文
摘要:一、seq2seq架构图 seq2seq模型左边绿色的部分我们称之为encoder,左边的循环输入最终生成一个固定向量作为右侧的输入,右边紫色的部分我们称之为decoder。单看右侧这个结构跟我们之前学习的语言模型非常相似,如下: 唯一不同的是,语言模型的输入a<0>是一个零向量,而seq2seq模
阅读全文
摘要:一、LSTM架构与公式 这里的a<t>表示的就是原始输出,y<t>表示的就是经过softmax的输出,c<t>相当于状态。u(update)代表是输入门,f代表遗忘门,o(output)代表输出门。 上图就是串联起来的结构,从图中我们可以看出,如果门控设置比较合理的话,c<0>从左到右是可以一直传递
阅读全文
摘要:一、RNN基本结构 普通神经网络不能处理时间序列的信息,只能割裂的单个处理,同时普通神经网络如果用来处理文本信息的话,参数数目将是非常庞大,因为如果采用one-hot表示词的话,维度非常大。 RNN可以解决这两个问题: 1)RNN属于循环神经网络,当从左到右读取文本信息的时候,上一时刻的状态输出可以
阅读全文