摘要: Transformer原理 论文地址:Attention Is All You Need:https://arxiv.org/abs/1706.03762 Transformer是一种完全基于Attention机制来加速深度学习训练过程的算法模型。Transformer最大的优势在于其在并行化处理上 阅读全文
posted @ 2019-05-30 20:34 Assange 阅读(420) 评论(0) 推荐(0) 编辑