Pytorch中RNN参数解释
其实构建rnn的代码十分简单,但是实际上看了下csdn以及官方tutorial的解释都不是很详细,说的意思也不能够让人理解,让大家可能会造成一定误解,因此这里对rnn的参数做一个详细的解释:
self.encoder = nn.RNN(input_size=300,hidden_size=128,dropout=0.5)
在这句代码当中:
- input_size:表示输入句子但当中单词的维度,比如你将一个单词编码为100维度的one-hot 向量,那么这里应该使用input_size=100
- hidden_size:表示每一个rnn神经单位向量(每一个隐匿层)的向量长度,多个rnn神经网络隐匿层就形成了我们的rnn
- dropout:dropout的概率大小
- num_layers:有多少层rnn的网络,往上堆叠多少层rnn
以上是对rnn结构的构建,之后我们来进行对rnn前向转播:
output,hn = self.encoder(encoder_input,encoder_hidden)
这句代码当中,其中:
encoder_input:一共需要输入三个维度,分别是【seq_len, batch,word_dim】
- seq_len:句子的长度
- batch:有多少个句子
- word_dim:单词的维度
encoder_hidden:也是具备三个维度,分别是【num_layers,batch,hidden_size】
- num_layes:一共有多少层rnn
- batch:有多少个句子
- hidden_size:表示每一个rnn神经单位向量(每一个隐匿层)的向量长度,多个rnn神经网络隐匿层就形成了我们的rnn
然后就是我们的输出解释了:
- hn:RNN的最后一个隐含状态(最后一个隐匿层上方的输出,而不是右边,右边是output)
- output:所有节点的hn集合(所有隐匿层都会有一个隐匿状态的输出,而这个output是所有隐匿层上方的一个集合)