随笔分类 - 学习--DeepLearning
摘要:主流的序列到序列模型都是基于含有encoder和decoder的复杂的循环或者卷积网络。而性能最好的模型在encoder和decoder之间加了attentnion机制。本文提出一种新的网络结构,摒弃了循环和卷积网络,仅基于attention机制。 self-attention是一种attentio
阅读全文
摘要:目录: 1、RNN 2、GRU 3、LSTM 一、RNN 1、RNN结构图如下所示: 其中: a^{(t)} = \boldsymbol{W}h^{t-1} + \boldsymbol{W}_{e}x^{t} + \mathbf{b} h^{t} = f(a^{t}), f 是激励函数,si
阅读全文
摘要:深度学习中的Normalization 引言 normalization中文意思是标准化,标准化就是对一组数据集合将其变成均值为0,方差为1的过程。在深度网络中主要有两种实体:神经元和相邻两层相连的权重边。根据规范化对象的不同,可以分为两类:一类是对L层网络的输出值进行Normalization的操
阅读全文
摘要:前言 Transfomer是一种encoder-decoder模型,在机器翻译领域主要就是通过encoder-decoder即seq2seq,将源语言(x1, x2 ... xn) 通过编码,再解码的方式映射成(y1, y2 ... ym), 之前的做法是用RNN进行encode-decoder,但
阅读全文
摘要:seq2seq: seq2seq就是将输入序列经过encoder-decoder变成目标序列。 如图所示,输入序列是 [A, B, C, <EOS>],输出序列是 [W, X, Y, Z, <EOS>] encoder-decoder: 主要过程就是用RNN对输入序列进行编码,然后再用RNN对上下文
阅读全文
摘要:1、tensorflow中dynamic_rnn和rnn有什么区别? 在tensorflow中没有找到rnn这个方法难道是废弃掉了? rnn是静态图,比如有10个时间序列,那么它将全部展开,并且存储这十个图, dynamic_rnn是动态的,不会全部存储这些图 dynamic_rnn对于不同的时间步
阅读全文
摘要:含义 在训练过程中,对神经网络单元按照一定比例暂时将其丢弃。 原理 由于网络参数过多,训练数据少,或者训练次数过多,会产生过拟合的现象。dropout产生的一个重大原因就是为了避免过拟合。 每一层的神经元按照不同的概率进行dropout,这样每次训练的网络都不一样,对每一个的batch就相当于训练了
阅读全文
摘要:前言 L1、L2在机器学习方向有两种含义:一是L1范数、L2范数的损失函数,二是L1、L2正则化 L1范数、L2范数损失函数 L1范数损失函数: L2范数损失函数: L1、L2分别对应损失函数中的绝对值损失函数和平方损失函数 区别: 分析: robust: 与L2相比,L1受异常点影响比较小,因此稳
阅读全文