摘要: 论文:Lite Transformer with Long-Short Range Attention by Wu, Liu et al. [ code in github ] LSRA特点:两组head,其中一组头部专注于局部上下文建模(通过卷积),而另一组头部专注于长距离关系建模(通过注意)。 阅读全文
posted @ 2020-05-28 12:51 山竹小果 阅读(1853) 评论(0) 推荐(0) 编辑