摘要: 总结: 随着我们增加内存压缩次数的次数,Infini-attention 的性能会变得越来越差。据我们所知,ring attention、YaRN 和 rope scaling 这三种方法仍是将预训练模型拓展更长上下文的最佳方式。 引言: 语言模型的上下文长度也是除模型性能之外的重要属性之一。自 i 阅读全文
posted @ 2024-08-30 15:34 HuggingFace 阅读(60) 评论(0) 推荐(0) 编辑
摘要: 本文,我们将发布 Docmatix - 一个超大的文档视觉问答 (DocVQA) 数据集,比之前的数据集大 100 倍。当使用 Docmatix 微调 Florence-2 时,消融实验显示 DocVQA 任务的性能提高了 20%。 Docmatix 数据集样本示例 缘起于 丹鼎 (The Caul 阅读全文
posted @ 2024-08-30 15:20 HuggingFace 阅读(163) 评论(0) 推荐(0) 编辑
摘要: 过去的几个月,我们目睹了使用基于 transformer 模型作为扩散模型的主干网络来进行高分辨率文生图 (text-to-image,T2I) 的趋势。和一开始的许多扩散模型普遍使用 UNet 架构不同,这些模型使用 transformer 架构作为扩散过程的主模型。由于 transformer 阅读全文
posted @ 2024-08-30 14:28 HuggingFace 阅读(341) 评论(0) 推荐(1) 编辑