控局老司马 - 博客园

2024年1月16日

论文总结：Efficient Long-Text Understanding with Short-Text Models

摘要： 1）背景问题：基于 Transformer 的预训练语言模型，会限制长度，一般是512以内，因为二次复杂度的原因 O(N^2)，无法应用于长序列例如故事、科学文章和长文档。 2）现有方法：高效的Transformer变体，但是，它们通常基于自定义实现，需要从头开始进行昂贵的预训练。比如： 1 阅读全文

posted @ 2024-01-16 16:22 控局老司马阅读(66) 评论(0) 推荐(0)

aclish

公告