会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Hugging Face 博客
The AI community building the future.
博客园
首页
新随笔
联系
订阅
管理
2023年11月16日
使用 PPO 算法进行 RLHF 的 N 步实现细节
摘要:
当下,RLHF/ChatGPT 已经变成了一个非常流行的话题。我们正在致力于更多有关 RLHF 的研究,这篇博客尝试复现 OpenAI 在 2019 年开源的原始 RLHF 代码库,其仓库位置位于 openai/lm-human-preferences。尽管它具有 “tensorflow-1.x”
阅读全文
posted @ 2023-11-16 15:02 HuggingFace
阅读(743)
评论(0)
推荐(1)
编辑
公告