会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
月出兮彩云归 🌙
首页
新随笔
联系
订阅
管理
随笔 - 192
文章 - 0
评论 - 31
阅读 -
86585
收藏
闪存
小组
博问
MoonOut
+ 关注
园龄:3年9个月
粉丝:37
关注:8
当前标签:PbRL
offline RL · PbRL | LiRE:构造 A>B>C 的 RLT 列表,得到更多 preference 数据
MoonOut 2024-11-30 16:07
阅读:157
评论:0
推荐:0
编辑
PbRL | Christiano 2017 年的开山之作,以及 Preference PPO / PrefPPO
MoonOut 2024-11-20 15:16
阅读:144
评论:0
推荐:0
编辑
PbRL | RIME:用交叉熵 loss 大小分辨 preference 是否正确 + 内在奖励预训练 reward model
MoonOut 2024-07-25 16:10
阅读:127
评论:0
推荐:0
编辑
offline RL · PbRL | Preference Transformer:反正感觉 transformer 很强大
MoonOut 2024-03-06 12:57
阅读:279
评论:1
推荐:0
编辑
offline RL · PbRL | OPPO:PbRL 场景的 offline hindsight transformer
MoonOut 2024-02-27 21:38
阅读:76
评论:0
推荐:0
编辑
PbRL | 速通 ICLR 2024 RLHF · PbRL
MoonOut 2024-01-21 11:17
阅读:405
评论:0
推荐:0
编辑
PbRL | QPA:选择 near on-policy query,加速 policy learning 收敛速度
MoonOut 2023-12-17 15:28
阅读:76
评论:1
推荐:0
编辑
PbRL | B-Pref:生成多样非理性 preference,建立 PbRL benchmark
MoonOut 2023-11-30 21:21
阅读:168
评论:0
推荐:0
编辑
PbRL · offline RL | 发现部分 D4RL tasks 不适合做 offline reward learning 的 benchmark
MoonOut 2023-11-13 18:11
阅读:468
评论:0
推荐:0
编辑
PbRL | SURF:使用半监督学习,对 labeled segment pair 进行数据增强
MoonOut 2023-11-11 20:16
阅读:270
评论:0
推荐:1
编辑
PbRL | RUNE:鼓励 agent 探索 reward model 更不确定的 (s,a)
MoonOut 2023-11-10 17:43
阅读:394
评论:0
推荐:3
编辑
PbRL | PEBBLE:通过 human preference 学习 reward model
MoonOut 2023-11-09 20:40
阅读:439
评论:0
推荐:0
编辑
博客园
首页
新随笔
草稿箱
联系
订阅
管理
随笔:
192
文章:
0
评论:
31
阅读:
86585
公告
昵称:
MoonOut
园龄:
3年9个月
粉丝:
37
关注:
8
+加关注
Spring Wonderland
25 Feb, 2025
我的标签
offline RL
(17)
PbRL
(12)
conda
(2)
MORL
(1)
随笔分类
(205)
🪔 misc & 随记(26)
🍑 SEUCSE 笔记(13)
🍇 THUDA · PhD 笔记(18)
🌮 零零散散的经验(41)
🍁 论文速读(3)
🍵 论文阅读(49)
🍅 人工智能(14)
🥝 数学频道(19)
🌺 刷题记录(18)
🌾 算法模板(4)
阅读排行榜
1. cs 保研经验贴 | 综合面试题库(12342)
2. (已解决)vscode python 代码高亮异常 - 引入的包不显示(9429)
3. 线性代数 | 等价、相似、合同(6830)
4. (已解决)C·lash 核心崩溃“failed to c·lash core, logs are not available”(4501)
5. 运筹学 | 基础向 | 线性规划的对偶理论(2368)
6. cs 保研经验贴 | 数学试题 · 自动化所特供版(2309)
7. 高等数学 | 数列 函数 级数 函数项级数之收敛性(下)(1958)
8. cs 保研经验贴 | 英语口试(1623)
9. (已解决)Adobe Creative Cloud 安装 Acrobat PDF 报错 DW071 DW003(1560)
10. 运筹学 | 退化的最优解 vs 无穷多最优解?(1424)
11. 运筹学 | 基础向 | 线性规划的运输问题(1424)
12. Conda | 如何在 Linux 服务器安装 conda(1377)
13. 科目一 | 攻略 记诵 口诀 资料 | 扣分 罚款 拘留 驾驶证 登记(1210)
14. offline RL | D4RL:最常用的 offline 数据集之一(1196)
15. Contrastive Learning 对比学习 | 何恺明大神的 SimSiam(1104)
16. (已解决)pulse secure 连接功能变灰禁用 连接面板找不到(1005)
17. 运筹学 | 基础向 | 线性规划、单纯形法(887)
18. 关于 KL 散度和变分推断的 ELBO(865)
19. transforming 开头的 RL 数据中心冷却控制(808)
20. 线性代数 | 最小二乘法的直观理解(803)
点击右上角即可分享
深色
回顶
展开
收起
1
Sibelius: Violin Concerto in D Minor, Op. 47:III. Allegro, ma non tanto
Jascha Heifetz / Chicago Symphony Orchestra
Sibelius: Violin Concerto in D Minor, Op. 47:III. Allegro, ma non tanto
- Jascha Heifetz / Chicago Symphony Orchestra
00:00
/
00:00
An audio error has occurred.