摘要: 机器翻译 机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。 Encoder Decoder 解决输出序列的长度可能与源序列的长度不同的问题 encode 阅读全文
posted @ 2020-02-18 21:34 yu212223 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 循环神经网络进阶 GRU RNN存在的问题:梯度较容易出现衰减或爆炸(BPTT) ⻔控循环神经⽹络:捕捉时间序列中时间步距离较⼤的依赖关系 RNN : $$ H_{t} = ϕ(X_{t}W_{xh} + H_{t 1}W_{hh} + b_{h}) $$ GRU : $$ R_{t} = σ(X_ 阅读全文
posted @ 2020-02-18 21:22 yu212223 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 梯度消失、梯度爆炸 深度模型有关数值稳定性的典型问题是消失(vanishing)和爆炸(explosion)。 当神经网络的层数较多时,模型的数值稳定性容易变差。 假设一个层数为$L$的多层感知机的第$l$层$\boldsymbol{H}^{(l)}$的权重参数为$\boldsymbol{W}^{( 阅读全文
posted @ 2020-02-18 21:15 yu212223 阅读(190) 评论(0) 推荐(0) 编辑
摘要: 过拟合、欠拟合及其解决方案 训练误差和泛化误差 在解释上述现象之前,我们需要区分训练误差(training error)和泛化误差(generalization error)。通俗来讲,前者指模型在训练数据集上表现出的误差,后者指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上 阅读全文
posted @ 2020-02-18 21:04 yu212223 阅读(360) 评论(0) 推荐(0) 编辑