摘要: 1. self attention layer可以取代RNN,因为其可以并行,并且能考虑全局输入 2. RNN在t时刻的输出o(t)取决于当前时刻的输入x(t)和隐藏层的值s(t),而其中的隐藏层的值s(t)不仅取决于当前时刻的输入x(t),还取决于前一时刻隐藏层的值s(t-1),具体公式如下图: 阅读全文
posted @ 2021-06-03 09:22 彭源 阅读(194) 评论(0) 推荐(0) 编辑