摘要: 1)背景问题: 基于 Transformer 的预训练语言模型,会限制长度,一般是512以内,因为二次复杂度的原因 O(N^2),无法应用于长序列 例如故事、科学文章和长文档。 2)现有方法: 高效的Transformer变体,但是,它们通常基于自定义实现,需要从头开始进行昂贵的预训练。 比如: 1 阅读全文
posted @ 2024-01-16 16:22 控局老司马 阅读(66) 评论(0) 推荐(0)