深度学习 - 随笔分类 - 光彩照人

深入理解transformer

摘要：一、transformer的架构图主要分为两大块，Encoders和Decoders，两块分别由6个Encoder和Decoder组成。其实Encoders的功能就是抽取特征的，抽取出来的特征就交给Decoders，Decoders用Encoders抽取到的特征去做具体的任务，类比到常见的机器学习阅读全文

posted @ 2022-06-14 21:07 光彩照人阅读(1883) 评论(0) 推荐(0) 编辑

深入理解softmax函数

摘要：一、softmax函数公式 softmax用于多分类过程中，它将多个神经元的输出，映射到（0,1）区间内，可以看成概率来理解，从而来进行多分类。假设我们有一个数组Z，Zi表示Z中的第i个元素，那么这个元素的softmax值就是如下： Softmax函数可以将上一层的原始数据进行归一化，转化为一个【0 阅读全文

posted @ 2022-06-06 07:53 光彩照人阅读(14355) 评论(0) 推荐(0) 编辑

神经图灵机(NTM)

摘要：一、什么是图灵机？图灵机（Turing machine），是艾伦・麦席森・图灵(1912-1954年)于1936年提出的一种抽象的计算模型，即将人们使用纸笔进行数学运算的过程进行抽象，由一个虚拟的机器替代人类进行复杂的数学运算。它有一条无限长的纸带，纸带分成了一个一个的小方格，每个方格有不同的颜色阅读全文

posted @ 2022-05-28 08:21 光彩照人阅读(2597) 评论(0) 推荐(0) 编辑

推荐系统中MAP与nDCG的计算方法

摘要：一、MAP(平均精度均值) AP表示Average Precision 其实求的就是PR曲线下面的面积。以A和E客户为例子画图计算： 3、代码 https://github.com/sparklego/ml/blob/master/metrics/MAP.py 二、nDCG(归一化折损累积增益) 阅读全文

posted @ 2021-07-13 17:39 光彩照人阅读(1437) 评论(0) 推荐(0) 编辑

一文彻底搞懂attention机制

摘要：一、什么是attention机制 Attention机制：又称为注意力机制，顾名思义，是一种能让模型对重要信息重点关注并充分学习吸收的技术.通俗的讲就是把注意力集中放在重要的点上，而忽略其他不重要的因素。其中重要程度的判断取决于应用场景，拿个现实生活中的例子，比如1000个人眼中有1000个哈姆雷特阅读全文

posted @ 2021-04-23 14:53 光彩照人阅读(29790) 评论(1) 推荐(3) 编辑

GRU模型结构

摘要：一、概述： GRU(Gate Recurrent Unit)是LSTM网络的一种效果很好的变体，它较LSTM网络的结构更加简单，而且效果也很好，因此也是当前非常流形的一种网络。GRU既然是LSTM的变体，因此也是可以解决RNN网络中的长依赖问题。在LSTM中引入了三个门函数：输入门、遗忘门和输出门阅读全文

posted @ 2020-08-23 15:24 光彩照人阅读(7315) 评论(0) 推荐(0) 编辑

深入理解Keras中LSTM的stateful和stateless应用区别

摘要：本文通过让LSTM学习字母表，来预测下一个字母，详细的请参考： https://blog.csdn.net/zwqjoy/article/details/80493341 https://machinelearningmastery.com/understanding-stateful-lstm-r 阅读全文

posted @ 2020-08-01 15:50 光彩照人阅读(1409) 评论(0) 推荐(0) 编辑

LSTM之Keras中Stateful参数

摘要：一、Sateful参数介绍在Keras调用LSTM的参数中，有一个stateful参数，默认是False，也就是无状态模式stateless，为True的话就是有状态模式stateful，所以这里我们就归为两种模式：有状态模型（stateful LSTM）无状态模型（stateless LST 阅读全文

posted @ 2020-07-28 21:07 光彩照人阅读(2359) 评论(0) 推荐(0) 编辑

LSTM原理介绍及Keras调用接口

摘要：一、LSTM原理介绍 RNN虽然理论上也能循环处理长序列，但是由于其结构简单，单元里面只是一个基于tanh激活函数的前馈网络在循环，对于长序列中的哪些信息需要记忆、哪些序列需要忘记，RNN是无法处理的。序列越长，较早的信息就应该忘记，由新的信息来代替，因为上下文语境意境发生了变化，既然RNN无法处理阅读全文

posted @ 2020-07-28 21:06 光彩照人阅读(1857) 评论(0) 推荐(0) 编辑

Sentence-BERT: 一种能快速计算句子相似度的孪生网络

摘要：一、背景介绍 BERT和RoBERTa在文本语义相似度等句子对的回归任务上，已经达到了SOTA的结果。但是，它们都需要把两个句子同时喂到网络中，这样会导致巨大的计算开销：从10000个句子中找出最相似的句子对，大概需要5000万(C100002=49,995,000)个推理计算，在V100GPU上耗阅读全文

posted @ 2020-05-12 10:01 光彩照人阅读(14270) 评论(1) 推荐(1) 编辑

Layer Normalization

摘要：一、Layer Normalization公式 1）计算各层的期望μ和标注差σ l表示第l个隐藏层，H表示该层的节点数，a表示某一个节点在激活前的值，即a=w*x。 2）标准化 g和b分别表示增益和偏置参数，可以纳入训练随样本一群训练。 3）加入激活函数输出二、Conditional Layer 阅读全文

posted @ 2020-04-19 16:01 光彩照人阅读(5831) 评论(0) 推荐(0) 编辑

LN和BN对比

摘要：一、图示两种方式的不同 LN：Layer Normalization，LN是“横”着来的，对一个样本，不同的神经元neuron间做归一化。 BN：Batch Normalization，BN是“竖”着来的，各个维度做归一化，所以与batch size有关系。二者提出的目的都是为了加快模型收敛，减少阅读全文

posted @ 2020-03-30 11:16 光彩照人阅读(10731) 评论(0) 推荐(1) 编辑

Reformer: The Efficient Transformer

摘要：一、背景与算法介绍 Transformer结构被广泛应用与自然语言处理中，并且在许多任务上都产生了当前最好的效果。为了达到进一步的效果，研究人员已经开始训练更大的Transformer模型。在某些报告的最大配置中，每层参数的数量超过了5亿(0.5B)，而层的数量增加到了64层。Transformer 阅读全文

posted @ 2020-02-07 23:03 光彩照人阅读(2997) 评论(0) 推荐(2) 编辑

Locality Sensitive Hashing(局部敏感哈希)之cross-polytope LSH

摘要：一、概述近邻搜索在计算机科学中是一个非常基础的问题，在信息检索、模式识别、机器学习、聚类等领域有着广泛的应用。如果在d维空间中，我们有n个数据点，采用暴力搜索寻找最近邻的时间复杂度为O(dn)。当前我们的数据量越来越大，因此我们需要一些新的数据结构来查找最近邻，使得任意给定一个数据就能快速找到近邻阅读全文

posted @ 2020-02-01 18:28 光彩照人阅读(2342) 评论(0) 推荐(0) 编辑

大幅减少GPU显存占用：可逆残差网络(The Reversible Residual Network)

摘要：前序： Google AI最新出品的论文Reformer 在ICLR 2020会议上获得高分，论文中对当前暴热的Transformer做两点革新：一个是局部敏感哈希(LSH)；一个是可逆残差网络代替标准残差网络。本文主要介绍变革的第二部分，可逆残差网络。先从神经网络的反向传播讲起，然后是标准残差网络阅读全文

posted @ 2020-01-11 22:21 光彩照人阅读(5476) 评论(0) 推荐(1) 编辑

paper阅读：UniLM(Unified Language Model Pre-training for Natural Language Understanding and Generation)

摘要：概述： UniLM是微软研究院在Bert的基础上，最新产出的预训练语言模型，被称为统一预训练语言模型。它可以完成单向、序列到序列和双向预测任务，可以说是结合了AR和AE两种语言模型的优点，Unilm在抽象摘要、生成式问题回答和语言生成数据集的抽样领域取得了最优秀的成绩。一、AR与AE语言模型 AR 阅读全文

posted @ 2019-12-28 23:06 光彩照人阅读(3416) 评论(0) 推荐(0) 编辑

SOTA激活函数学习

摘要：除了之前较为流行的RELU激活函数，最近又新出了几个效果较好的激活函数一、BERT激活函数 - GELU（gaussian error linear units）高斯误差线性单元数学公式如下： X是服从标准正态分布的变量。近似的数学计算公式如下：函数图如下：橙色曲线为：GELU 蓝色曲线为阅读全文

posted @ 2019-11-03 17:56 光彩照人阅读(1331) 评论(0) 推荐(0) 编辑

deeplearning.ai学习seq2seq模型

摘要：一、seq2seq架构图 seq2seq模型左边绿色的部分我们称之为encoder，左边的循环输入最终生成一个固定向量作为右侧的输入，右边紫色的部分我们称之为decoder。单看右侧这个结构跟我们之前学习的语言模型非常相似，如下：唯一不同的是，语言模型的输入a<0>是一个零向量，而seq2seq模阅读全文

posted @ 2019-04-11 10:04 光彩照人阅读(747) 评论(0) 推荐(0) 编辑

deeplearning.ai学习LSTM

摘要：一、LSTM架构与公式这里的a<t>表示的就是原始输出，y<t>表示的就是经过softmax的输出，c<t>相当于状态。u(update)代表是输入门，f代表遗忘门，o(output)代表输出门。上图就是串联起来的结构，从图中我们可以看出，如果门控设置比较合理的话，c<0>从左到右是可以一直传递阅读全文

posted @ 2019-04-10 15:00 光彩照人阅读(366) 评论(0) 推荐(0) 编辑

deeplearning.ai学习RNN

摘要：一、RNN基本结构普通神经网络不能处理时间序列的信息，只能割裂的单个处理，同时普通神经网络如果用来处理文本信息的话，参数数目将是非常庞大，因为如果采用one-hot表示词的话，维度非常大。 RNN可以解决这两个问题： 1）RNN属于循环神经网络，当从左到右读取文本信息的时候，上一时刻的状态输出可以阅读全文

posted @ 2019-04-09 14:48 光彩照人阅读(270) 评论(0) 推荐(0) 编辑

光彩照人

每一次挫折都是一次蜕变，挫折越大，蜕变越彻底！

随笔分类 - 深度学习

公告