【今日收获】看到关于RL的一些观点

 

 1. MDP的最佳策略是确定性和无记忆的,一错会再错,以前发生的状态也不记得。Memory模块是正解吗?

图源 https://zhuanlan.zhihu.com/p/430221668

2. 毫末 吕迪 对于RL现存问题的看法

每个观点都很insight

强化学习领域目前遇到的瓶颈是什么? - 毫末智行的回答 - 知乎 https://www.zhihu.com/question/449478247/answer/2000015265 

 首先是reward设计不合理导致无法兼顾安全性和稳定性,碰撞的极大惩罚在增强安全的同时会导致策略不稳定。

这让人想起什么?

是不是想起在优化算法里外罚函数法的特点,梯度病态

实际上我一直认为reward帮助形成的Q值就是把约束条件做成外罚函数的一种目标函数。

补充,关于外罚函数的缺点:形象理解外罚函数法+内罚函数法 - Cat food的文章 - 知乎 https://zhuanlan.zhihu.com/p/368010901

 

其次是关于模糊的策略映射导致训练confusing,这一段理解不深,以后常读常新吧

 最后是多目标需要动态调整。这个我自己目前认为不是最主要的。

 

3. 偏好强化学习

https://zhuanlan.zhihu.com/p/622056740

还需要再读 

 

posted @ 2023-09-12 18:56  Zer0_Chambers  阅读(17)  评论(0编辑  收藏  举报