会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Dream
博客园
首页
新随笔
联系
管理
订阅
当前标签:大模型和强化学习
DPO: Direct Preference Optimization 直接偏好优化(学习笔记)
kkzhang 2024-01-15 09:56
阅读:33063
评论:0
推荐:0
编辑
浮点数格式:FP64, FP32, FP16, BFLOAT16, TF32之间的相互区别
kkzhang 2023-11-20 10:08
阅读:13118
评论:0
推荐:1
编辑
TRL(Transformer Reinforcement Learning) PPO Trainer 学习笔记
kkzhang 2023-11-13 15:44
阅读:2317
评论:0
推荐:0
编辑
基于LoRA的RLHF
kkzhang 2023-11-09 16:03
阅读:1782
评论:0
推荐:0
编辑
基于人类反馈的强化学习,Reinforcement Learning from Human Feedback (RLHF)
kkzhang 2023-11-09 10:39
阅读:1854
评论:0
推荐:1
编辑
公告