会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Loading
yanlishao
博客园
首页
新随笔
联系
订阅
管理
2024年11月1日
Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch
摘要: 1. 概述 LLM的SFT数据合成工作不可避免的可以划分为多个阶段: 指令合成 响应合成 数据筛选。 本篇文章采用了传统LLM的训练过程(SFT+DPO)进行数据合成。 在领域专有模型(DeepSeekMath7B-RL,Qwen2-Math-7BInstruct)的基础上, 指令合成:通过QFT(
阅读全文
posted @ 2024-11-01 19:52 啊哈哈哈哈312
阅读(31)
评论(0)
推荐(0)
编辑
公告