2023 年 1月 8 日随笔档案 - Uriel-w

2023年1月8日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context（论文）

摘要： Transformer模型能够学习长范围依赖，但是在语言模型中受到固定长度上下文限制，本文提出了一个新的结构：Transformer-XL。能够学习超过固定长度的依赖，同时保持了时间的连贯性，整体创新包括一个循环机制和一个新的位置编码方法。存在的问题以及解决的方案：在语言模型中构建长范围依赖是至阅读全文

posted @ 2023-01-08 20:34 Uriel-w 阅读(130) 评论(0) 推荐(0) 编辑

Uriel-w

公告