google的transformer模型的解释

参考这篇文章：

https://blog.csdn.net/mijiaoxiaosan/article/details/73251443

看了下：

最核心的如下：其最重要的创新应该就是Self-Attention的使用级联的多头attention架构。

两点：multi-head attention 和 self-attention。

posted @ 2018-12-02 23:48 blcblc 阅读(546) 评论(0) 收藏举报

刷新页面返回顶部