google的transformer模型的解释

参考这篇文章:

https://blog.csdn.net/mijiaoxiaosan/article/details/73251443

 

看了下:

最核心的如下:其最重要的创新应该就是Self-Attention的使用级联的多头attention架构。

两点:multi-head attention 和 self-attention。

 

posted @ 2018-12-02 23:48  blcblc  阅读(538)  评论(0编辑  收藏  举报