摘要: 1. MDP的最佳策略是确定性和无记忆的,一错会再错,以前发生的状态也不记得。Memory模块是正解吗? 图源 https://zhuanlan.zhihu.com/p/430221668 2. 毫末 吕迪 对于RL现存问题的看法 每个观点都很insight 强化学习领域目前遇到的瓶颈是什么? - 阅读全文
posted @ 2023-09-12 18:56 Zer0_Chambers 阅读(15) 评论(0) 推荐(0) 编辑