当前标签：大模型和强化学习

DPO: Direct Preference Optimization 直接偏好优化（学习笔记）

kkzhang 2024-01-15 09:56 阅读:33063 评论:0 推荐:0 编辑

浮点数格式：FP64, FP32, FP16, BFLOAT16, TF32之间的相互区别

kkzhang 2023-11-20 10:08 阅读:13118 评论:0 推荐:1 编辑

TRL(Transformer Reinforcement Learning) PPO Trainer 学习笔记

kkzhang 2023-11-13 15:44 阅读:2317 评论:0 推荐:0 编辑

基于LoRA的RLHF

kkzhang 2023-11-09 16:03 阅读:1782 评论:0 推荐:0 编辑

基于人类反馈的强化学习，Reinforcement Learning from Human Feedback (RLHF)

kkzhang 2023-11-09 10:39 阅读:1854 评论:0 推荐:1 编辑