2019 年 4月 24 日随笔档案 - 新知号

摘要：与基于RNN的方法相比，Transformer 不需要循环，主要是由Attention 机制组成，因而可以充分利用python的高效线性代数函数库，大量节省训练时间。阅读全文

posted @ 2019-04-24 16:19 新知号阅读(804) 评论(0) 推荐(0) 编辑

2019年4月24日