d2l-GRU-LSTM

1. 门控循环单元 GRU

GRU和RNN的区别：

GRU支持对隐状态的门控。模型有专门的机制来决定何时更新隐状态，何时重置隐状态
GRU的数值稳定性更强，能够处理更长的文本
GRU的功能是LSTM的变种，两者功能类似

重置门 (reset gate)，更新门 (update gate)：这两个门和隐状态的形状相同，因此GRU的可学习参数是RNN的3倍。

R_{t} = σ (X_{t} W_{x r} + H_{t - 1} W_{h r} + b_{r})

Z_{t} = σ (X_{t} W_{x z} + H_{t - 1} W_{h z} + b_{z})

其中， $σ$ 为sigmoid激活函数

候选隐状态 (candidate hidden state)：由重置门 $R_{t}$ 与常规隐状态更新机制集成得到

{\tilde{H}}_{t} = t a n h (X_{t} W_{x h} + (R_{t} ⊙ H_{t - 1}) W_{h h} + b_{h})

其中， $⊙$ 为Hadamard积（按元素乘积）。

$R_{t}$ 接近1时，类似于普通的RNN
$R_{t}$ 接近0时， ${\tilde{H}}_{t}$ 是以 $X_{t}$ 为输入的多层感知机的结果。先前的隐状态被重置为默认值。

隐状态 $H_{t}$ 还取决于 $H_{t - 1}$ , ${\tilde{H}}_{t}$ , 更新门 $Z_{t}$ 。

H_{t} = Z_{t} ⊙ H_{t - 1} + (1 - Z_{t}) ⊙ {\tilde{H}}_{t}

$Z_{t}$ 接近1时，模型倾向于保留就状态，从而忽略 $X_{t}$ 的信息
$Z_{t}$ 接近0时，新的隐状态 $H_{t}$ 接近候选状态 ${\tilde{H}}_{t}$

# Pytorch 简洁实现
num_inputs = vocab_size
gru_layer = nn.GRU(num_inputs, num_hiddens)
model = d2l.RNNModel(gru_layer, len(vocab))
model = model.to(device)
d2l.train_ch8(model, train_iter, vocab, lr, num_epochs, device)

综上所述：

重置门有助于模型捕获序列中的短期依赖关系
更新门有助于模型捕获序列中的长期依赖关系

2. 长短期记忆网络 LSTM

LSTM中有3种门：遗忘门 F，输入门 I，输出门 O

I_{t} = σ (X_{t} W_{x i} + H_{t - 1} W_{h i} + b_{i})

F_{t} = σ (X_{t} W_{x f} + H_{t - 1} W_{h f} + b_{f})

O_{t} = σ (X_{t} W_{x o} + H_{t - 1} W_{h o} + b_{o})

其中， $σ$ 为sigmoid激活函数

候选记忆元 ${\tilde{C}}_{t}$ 使用tanh作为激活函数。

{\tilde{C}}_{t} = t a n h (X_{t} W_{x c} + H_{t - 1} W_{h c} + b_{c})

记忆元 $C_{t}$ ：

C_{t} = F_{t} ⊙ C_{t - 1} + I_{t} ⊙ {\tilde{C}}_{t}

遗忘门 $F_{t}$ 控制保留过去多少的记忆元 $C_{t - 1}$
输入门 $I_{t}$ 控制采用多少来自 ${\tilde{C}}_{t}$ 的新数据

隐状态 $H_{t}$ ：

H_{t} = O_{t} ⊙ t a n h (C_{t})

tanh函数保证了 $H_{t}$ 始终在(-1, 1)内，防止梯度爆炸
输出门 $O_{t}$ 接近1时，能够将所有记忆传递给预测部分
输出门 $O_{t}$ 接近0时，只保留记忆元内的信息，而不更新隐状态

综上所述：

LSTM中有3种门：遗忘门、输入门、输出门
LSTM的隐藏层输出包括：
1. 隐状态H：会传递到输出层
2. 记忆元C：属于内部信息

posted @ 2025-02-14 13:39 Frank23 阅读(9) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· d2l-现代循环神经网络

· d2l-循环神经网络

· 【动手学深度学习pytorch】学习笔记 9.1. 门控循环单元（GRU）

· GRU简述

· RNN循环神经网络&LSTM长短期记忆网络&GRU

阅读排行：
· 震惊！C++程序真的从main开始吗？99%的程序员都答错了
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理
· 上周热点回顾（3.3-3.9）
· winform 绘制太阳，地球，月球运作规律

Keep moving.

d2l-GRU-LSTM

1. 门控循环单元 GRU

2. 长短期记忆网络 LSTM

常用链接

随笔分类

阅读排行榜