摘要:
![](https://img2020.cnblogs.com/blog/1517575/202110/1517575-20211007202527233-1299712772.png) 阅读全文
摘要:
Seq2Seq seq2seq,从一个句子翻译到另外一个句子。 封面是一个基因转录,这个也是一个seq2seq的过程。 seq2seq最早是来做机器翻译的,不过现在基本都使用bert。(听说google的翻译和搜索都使用了bert) seq2seq是一个encoder-decoder的架构。 enc 阅读全文
摘要:
双向循环神经网络 双向LSTM非常不适合做推理,基础是不能用在预测下一个词。 Bi-RNN的作用主要是对一个句子做特征提取,比如做翻译, 给句子A翻译句子B,那么可以对句子A使用Bi-RNN去双向的看它。 代码 这里代码不会讲具体实现,但是其实很简单,前向的隐藏层就正常进行运算。反向的怎么实现呢?首 阅读全文
摘要:
深层循环神经网络 代码实现 QA 网络一般需要多深? 其实不会特别深,像MLP其实一般也只是2层3层这样。 为什么参数量增加,但是计算的时间却没有成倍增加? 因为框架会给你做一个很好的并行。 阅读全文
摘要:
长短期记忆网络 LSTM 90年代发明的网络,其实挺复杂的,就现在其实大家也没有搞明白为什么要这么设计。 LSTM虽然是长得挺奇怪的,但是使用效果还是不错的,尽管是90年年代发明的网络。 LSTM其实要实现的效果和GRU是差不多的,只不过设计相对复杂一些。 GRU可以认为是对LSTM的一个简化? 但 阅读全文
摘要:
门控制循环单元 GRU 首先这个GRU是最近几年才提出来的,它是在LSTM之后才提出来的,之所以先讲GRU是因为它相对比较简单一些。LSTM相对复杂,但是其实二者的表现效果差不多,所以实际使用哪个都是可以的。 GRU最主要是知道什么叫做“门控”。 我们之前说过,RNN是处理不了太长的序列的,是因为把 阅读全文