摘要: 目录写在前面1. Transformer1.1 从哪里来?1.2 有什么不同?1.2.1 Scaled Dot-Product Attention1.2.2 Multi-Head Attention1.2.3 Masked Multi-Head Attention2. Transformer-XL2 阅读全文
posted @ 2019-08-01 21:22 _Meditation 阅读(3454) 评论(2) 推荐(0) 编辑
摘要: 感谢: https://blog.csdn.net/longxinchen_ml/article/details/86533005(此篇解释的更详细,本篇自愧不如) https://www.jianshu.com/p/04b6dd396d62 Transformer模型由《Attention is 阅读全文
posted @ 2019-08-01 21:01 _Meditation 阅读(3262) 评论(1) 推荐(1) 编辑
摘要: 这两天,XLNet貌似也引起了NLP圈的极大关注,从实验数据看,在某些场景下,确实XLNet相对Bert有很大幅度的提升。就像我们之前说的,感觉Bert打开两阶段模式的魔法盒开关后,在这条路上,会有越来越多的同行者,而XLNet就是其中比较引人注目的一位。 当然,我估计很快我们会看到更多的这个模式下 阅读全文
posted @ 2019-08-01 20:54 _Meditation 阅读(1198) 评论(0) 推荐(1) 编辑