当前标签：RLHF

将强化学习重新引入 RLHF

HuggingFace 2024-06-19 22:52 阅读:428 评论:0 推荐:1

使用 PPO 算法进行 RLHF 的 N 步实现细节

HuggingFace 2023-11-16 15:02 阅读:1315 评论:0 推荐:1

TRL 正式推出，来训练你的首个 RLHF 模型吧！

HuggingFace 2023-08-10 23:55 阅读:2292 评论:0 推荐:1

“StackLLaMA”: 用 RLHF 训练 LLaMA 的手把手教程

HuggingFace 2023-05-05 11:15 阅读:917 评论:0 推荐:0

在一张 24 GB 的消费级显卡上用 RLHF 微调 20B LLMs

HuggingFace 2023-03-23 10:15 阅读:1339 评论:1 推荐:1