openr1复现
virualenv创建虚拟环境:virtualenv myenv --python=/usr/bin/python3.11
grpo原理:https://huggingface.co/docs/trl/main/en/grpo_trainer
(https://mp.weixin.qq.com/s?__biz=MzU0MDA1MzI0Mw==&mid=2247499160&idx=1&sn=0ce2772d2339133b89812aec01c6849b&chksm=fb3da60ccc4a2f1a831f6780d64c3cb956b4edd46f02b6dfa9f3311baf57454c3ff0652856f7&cur_album_id=2928732186977992709&scene=189#wechat_redirect)
openr1复现
grpo部分:
num_machines=1,机器数为1(节点数)
num_processes设置为1,用于训练的gpu数,设置为1,总共4张卡,其它用于部署vllm,进行reward测试
report_to:设置none(pre设置为wandb,是一个用于机器学习实验跟踪、可视化和协作的平台,旨在帮助机器学习团队更好地组织、记录和共享实验过程和结果)
push_to_hub:false(pre设置为true,会上传到huggingface)
ACCELERATE_LOG_LEVEL=info accelerate launch --config_file recipes/accelerate_configs/zero2.yaml \
--num_processes=1 src/open_r1/grpo.py \
--config recipes/Qwen2.5-14B/grpo/config_demo.yaml
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)