yu212223

2020年2月20日

posted @ 2020-02-20 17:20 yu212223 阅读(1544) 评论(0) 推荐(0)

卷积神经网络基础

摘要：卷积神经网络基础二维互相关运算二维互相关（cross correlation）运算的输入是一个二维输入数组和一个二维核（kernel）数组，输出也是一个二维数组，其中核数组通常称为卷积核或过滤器（filter）。卷积核的尺寸通常小于输入数组，卷积核在输入数组上滑动，在每个位置上，卷积核与该位置处阅读全文

posted @ 2020-02-20 00:26 yu212223 阅读(383) 评论(0) 推荐(0)

卷积神经网络进阶

摘要：卷积神经网络进阶使用全连接层的局限性：图像在同一列邻近的像素在这个向量中可能相距较远。它们构成的模式可能难以被模型识别。对于大尺寸的输入图像，使用全连接层容易导致模型过大。使用卷积层的优势：卷积层保留输入形状。卷积层通过滑动窗口将同一卷积核与不同位置的输入重复计算，从而避免参数尺寸过大。阅读全文

posted @ 2020-02-20 00:25 yu212223 阅读(529) 评论(0) 推荐(0)

Transformer

摘要： Transformer CNNs 易于并行化，却不适合捕捉变长序列内的依赖关系。 RNNs 适合捕捉长距离变长序列的依赖，但是却难以实现并行化处理序列。为了整合CNN和RNN的优势， "\[Vaswani et al., 2017\]" 创新性地使用注意力机制设计了Transformer模型。该模阅读全文

posted @ 2020-02-20 00:14 yu212223 阅读(552) 评论(0) 推荐(0)

注意力机制和Seq2seq模型

摘要：注意力机制和Seq2seq模型在“编码器—解码器（seq2seq）”⾥，解码器在各个时间步依赖相同的背景变量（context vector）来获取输⼊序列信息。当编码器为循环神经⽹络时，背景变量来⾃它最终时间步的隐藏状态。将源序列输入信息以循环单位状态编码，然后将其传递给解码器以生成目标序列。然而阅读全文

posted @ 2020-02-20 00:00 yu212223 阅读(321) 评论(0) 推荐(0)

2020年2月18日

机器翻译

摘要：机器翻译机器翻译（MT）：将一段文本从一种语言自动翻译为另一种语言，用神经网络解决这个问题通常称为神经机器翻译（NMT）。主要特征：输出是单词序列而不是单个单词。输出序列的长度可能与源序列的长度不同。 Encoder Decoder 解决输出序列的长度可能与源序列的长度不同的问题 encode 阅读全文

posted @ 2020-02-18 21:34 yu212223 阅读(230) 评论(0) 推荐(0)

循环神经网络进阶

摘要：循环神经网络进阶 GRU RNN存在的问题：梯度较容易出现衰减或爆炸（BPTT）⻔控循环神经⽹络：捕捉时间序列中时间步距离较⼤的依赖关系 RNN : $$ H_{t} = ϕ(X_{t}W_{xh} + H_{t 1}W_{hh} + b_{h}) $$ GRU : $$ R_{t} = σ(X_ 阅读全文

posted @ 2020-02-18 21:22 yu212223 阅读(131) 评论(0) 推荐(0)

梯度消失、梯度爆炸

摘要：梯度消失、梯度爆炸深度模型有关数值稳定性的典型问题是消失（vanishing）和爆炸（explosion）。当神经网络的层数较多时，模型的数值稳定性容易变差。假设一个层数为$L$的多层感知机的第$l$层$\boldsymbol{H}^{(l)}$的权重参数为$\boldsymbol{W}^{( 阅读全文

posted @ 2020-02-18 21:15 yu212223 阅读(202) 评论(0) 推荐(0)

过拟合、欠拟合及其解决方案

摘要：过拟合、欠拟合及其解决方案训练误差和泛化误差在解释上述现象之前，我们需要区分训练误差（training error）和泛化误差（generalization error）。通俗来讲，前者指模型在训练数据集上表现出的误差，后者指模型在任意一个测试数据样本上表现出的误差的期望，并常常通过测试数据集上阅读全文

posted @ 2020-02-18 21:04 yu212223 阅读(436) 评论(0) 推荐(0)

2020年2月14日

循环神经网络

摘要：循环神经网络下图展示了如何基于循环神经网络实现语言模型。我们的目的是基于当前的输入与过去的输入序列，预测序列的下一个字符。循环神经网络引入一个隐藏变量$H$，用$H_{t}$表示$H$在时间步$t$的值。$H_{t}$的计算基于$X_{t}$和$H_{t 1}$，可以认为$H_{t}$记录了到当前阅读全文

posted @ 2020-02-14 22:30 yu212223 阅读(196) 评论(0) 推荐(0)

公告