2020 年 2月 18 日随笔档案 - yu212223

2020年2月18日

摘要：机器翻译机器翻译（MT）：将一段文本从一种语言自动翻译为另一种语言，用神经网络解决这个问题通常称为神经机器翻译（NMT）。主要特征：输出是单词序列而不是单个单词。输出序列的长度可能与源序列的长度不同。 Encoder Decoder 解决输出序列的长度可能与源序列的长度不同的问题 encode 阅读全文

posted @ 2020-02-18 21:34 yu212223 阅读(219) 评论(0) 推荐(0) 编辑

循环神经网络进阶

摘要：循环神经网络进阶 GRU RNN存在的问题：梯度较容易出现衰减或爆炸（BPTT）⻔控循环神经⽹络：捕捉时间序列中时间步距离较⼤的依赖关系 RNN : $$ H_{t} = ϕ(X_{t}W_{xh} + H_{t 1}W_{hh} + b_{h}) $$ GRU : $$ R_{t} = σ(X_ 阅读全文

posted @ 2020-02-18 21:22 yu212223 阅读(121) 评论(0) 推荐(0) 编辑

梯度消失、梯度爆炸

摘要：梯度消失、梯度爆炸深度模型有关数值稳定性的典型问题是消失（vanishing）和爆炸（explosion）。当神经网络的层数较多时，模型的数值稳定性容易变差。假设一个层数为$L$的多层感知机的第$l$层$\boldsymbol{H}^{(l)}$的权重参数为$\boldsymbol{W}^{( 阅读全文

posted @ 2020-02-18 21:15 yu212223 阅读(196) 评论(0) 推荐(0) 编辑

过拟合、欠拟合及其解决方案

摘要：过拟合、欠拟合及其解决方案训练误差和泛化误差在解释上述现象之前，我们需要区分训练误差（training error）和泛化误差（generalization error）。通俗来讲，前者指模型在训练数据集上表现出的误差，后者指模型在任意一个测试数据样本上表现出的误差的期望，并常常通过测试数据集上阅读全文

posted @ 2020-02-18 21:04 yu212223 阅读(381) 评论(0) 推荐(0) 编辑

yu212223

公告