2023 年 9月 12 日随笔档案 - Zer0_Chambers

2023年9月12日

摘要： 1. MDP的最佳策略是确定性和无记忆的，一错会再错，以前发生的状态也不记得。Memory模块是正解吗？图源 https://zhuanlan.zhihu.com/p/430221668 2. 毫末吕迪对于RL现存问题的看法每个观点都很insight 强化学习领域目前遇到的瓶颈是什么? - 阅读全文

posted @ 2023-09-12 18:56 Zer0_Chambers 阅读(15) 评论(0) 推荐(0) 编辑

Zer0-Chambers

公告