摘要: Cosmopedia: 如何为预训练构建大规模合成数据集 本文概述了我们在生成含数十亿词元的合成数据集以复现 Phi-1.5 过程中所遇到的挑战及其解决方案,由此最终创建了 Cosmopedia 合成数据集。合成数据已成为机器学习社区的 C 位话题,其题中之义是用人工 (如使用大语言模型 (LLM)) 生成的数据模拟真实数据。 传统上,构建用于有监督微调和 阅读全文
posted @ 2024-07-03 16:35 HuggingFace 阅读(877) 评论(0) 推荐(0) 编辑
摘要: OpenBMB × Hugging Face × THUNLP,联袂献上经典大模型课 这个夏天,THUNLP 携手 Hugging Face 和 OpenBMB,推出 大模型公开课第二季。在大模型公开课第二季中,将有全球知名开源社区 OpenBMB X Hugging Face 梦幻联动;MiniCPM、ChatDev、Ultra对齐 等明星开源项目作者亲自授课,带领同学从深度学习开 阅读全文
posted @ 2024-07-03 16:03 HuggingFace 阅读(84) 评论(0) 推荐(0) 编辑