摘要: 简单概述 现在,在 Hugging Face 中,使用打包的指令调整示例 (无需填充) 进行训练已与 Flash Attention 2 兼容,这要归功于一个 最近的 PR 以及新的 DataCollatorWithFlattening。 它可以在保持收敛质量的同时,将训练吞吐量提高多达 2 倍。继 阅读全文
posted @ 2024-09-12 12:23 HuggingFace 阅读(125) 评论(0) 推荐(0) 编辑