会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
月出兮彩云归 🌙
首页
新随笔
联系
订阅
管理
收藏
闪存
小组
博问
MoonOut
+ 关注
园龄:3年9个月
粉丝:37
关注:8
当前标签:offline RL
offline RL · PbRL | LiRE:构造 A>B>C 的 RLT 列表,得到更多 preference 数据
MoonOut 2024-11-30 16:07
阅读:157
评论:0
推荐:0
编辑
offline RL | D4RL:最常用的 offline 数据集之一
MoonOut 2024-03-09 17:36
阅读:1196
评论:0
推荐:0
编辑
offline RL · PbRL | Preference Transformer:反正感觉 transformer 很强大
MoonOut 2024-03-06 12:57
阅读:279
评论:1
推荐:0
编辑
offline RL · PbRL | OPPO:PbRL 场景的 offline hindsight transformer
MoonOut 2024-02-27 21:38
阅读:76
评论:0
推荐:0
编辑
offline RL | HIM:基于 hindsight 的 RL 是一类大 idea
MoonOut 2024-02-27 21:08
阅读:235
评论:0
推荐:0
编辑
offline RL | 读读 Decision Transformer
MoonOut 2024-02-27 20:14
阅读:666
评论:0
推荐:2
编辑
offline 2 online | Cal-QL:校准保守 offline 训出的 Q value,让它与真实 reward 尺度相当
MoonOut 2024-02-07 20:14
阅读:95
评论:0
推荐:0
编辑
offline 2 online | 重要性采样,把 offline + online 数据化为 on-policy samples
MoonOut 2024-02-07 14:08
阅读:260
评论:0
推荐:1
编辑
offline 2 online | AWAC:基于 AWR 的 policy update + online 补充数据集
MoonOut 2024-02-05 21:50
阅读:193
评论:0
推荐:1
编辑
offline RL | ABM:从 offline dataset 的好 transition 提取 prior policy
MoonOut 2024-01-21 11:26
阅读:114
评论:0
推荐:0
编辑
offline RL | Pessimistic Bootstrapping (PBRL):在 Q 更新中惩罚 uncertainty,拉低 OOD Q value
MoonOut 2023-12-17 15:37
阅读:155
评论:0
推荐:0
编辑
offline RL | BCQ:学习 offline dataset 的 π(a|s),直接使用 (s, π(s)) 作为 Q learning 训练数据
MoonOut 2023-11-27 21:29
阅读:239
评论:0
推荐:0
编辑
offline RL | IQL:通过 sarsa 式 Q 更新避免 unseen actions
MoonOut 2023-11-25 20:12
阅读:548
评论:0
推荐:0
编辑
offline RL | TD3+BC:在最大化 Q advantage 时添加 BC loss 的极简算法
MoonOut 2023-11-19 17:02
阅读:627
评论:0
推荐:0
编辑
off-policy RL | Advantage-Weighted Regression (AWR):组合先前策略得到新 base policy
MoonOut 2023-11-13 20:40
阅读:363
评论:0
推荐:0
编辑
PbRL · offline RL | 发现部分 D4RL tasks 不适合做 offline reward learning 的 benchmark
MoonOut 2023-11-13 18:11
阅读:468
评论:0
推荐:0
编辑
offline RL | CQL:魔改 Bellman error 更新,得到 Q 函数 lower-bound
MoonOut 2023-11-07 15:12
阅读:792
评论:0
推荐:3
编辑
博客园
首页
新随笔
草稿箱
联系
订阅
管理
公告
昵称:
MoonOut
园龄:
3年9个月
粉丝:
37
关注:
8
+加关注
Spring Wonderland
25 Feb, 2025
我的标签
offline RL
(17)
PbRL
(12)
conda
(2)
MORL
(1)
随笔分类
(205)
🪔 misc & 随记(26)
🍑 SEUCSE 笔记(13)
🍇 THUDA · PhD 笔记(18)
🌮 零零散散的经验(41)
🍁 论文速读(3)
🍵 论文阅读(49)
🍅 人工智能(14)
🥝 数学频道(19)
🌺 刷题记录(18)
🌾 算法模板(4)
阅读排行榜
1. cs 保研经验贴 | 综合面试题库(12342)
2. (已解决)vscode python 代码高亮异常 - 引入的包不显示(9429)
3. 线性代数 | 等价、相似、合同(6830)
4. (已解决)C·lash 核心崩溃“failed to c·lash core, logs are not available”(4501)
5. 运筹学 | 基础向 | 线性规划的对偶理论(2368)
6. cs 保研经验贴 | 数学试题 · 自动化所特供版(2309)
7. 高等数学 | 数列 函数 级数 函数项级数之收敛性(下)(1958)
8. cs 保研经验贴 | 英语口试(1623)
9. (已解决)Adobe Creative Cloud 安装 Acrobat PDF 报错 DW071 DW003(1560)
10. 运筹学 | 退化的最优解 vs 无穷多最优解?(1424)
11. 运筹学 | 基础向 | 线性规划的运输问题(1424)
12. Conda | 如何在 Linux 服务器安装 conda(1377)
13. 科目一 | 攻略 记诵 口诀 资料 | 扣分 罚款 拘留 驾驶证 登记(1210)
14. offline RL | D4RL:最常用的 offline 数据集之一(1196)
15. Contrastive Learning 对比学习 | 何恺明大神的 SimSiam(1104)
16. (已解决)pulse secure 连接功能变灰禁用 连接面板找不到(1005)
17. 运筹学 | 基础向 | 线性规划、单纯形法(887)
18. 关于 KL 散度和变分推断的 ELBO(865)
19. transforming 开头的 RL 数据中心冷却控制(808)
20. 线性代数 | 最小二乘法的直观理解(803)
点击右上角即可分享
深色
回顶
展开
收起
1
Sibelius: Violin Concerto in D Minor, Op. 47:III. Allegro, ma non tanto
Jascha Heifetz / Chicago Symphony Orchestra
Sibelius: Violin Concerto in D Minor, Op. 47:III. Allegro, ma non tanto
- Jascha Heifetz / Chicago Symphony Orchestra
00:00
/
00:00
An audio error has occurred.