会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
月出兮彩云归 🌙
首页
新随笔
联系
订阅
管理
2023年11月7日
offline RL | CQL:魔改 Bellman error 更新,得到 Q 函数 lower-bound
摘要: 把 OOD 的 Q 函数值拉低,ID 的 Q 函数值拉高,因此倾向于选择原来数据集里有的 ID 的 action。
阅读全文
posted @ 2023-11-07 15:12 MoonOut
阅读(707)
评论(0)
推荐(2)
编辑
凸优化 | Lagrange 对偶:极大极小不等式的证明
摘要: sup inf ≤ inf sup,证明关键: inf_w f(w,z) 是 f(w0,z) 逐点下界,对于任意 w0。
阅读全文
posted @ 2023-11-07 10:51 MoonOut
阅读(199)
评论(1)
推荐(0)
编辑
公告