摘要: 本文参考《Reinforcement Learning:An Introduction(2nd Edition)》Sutton 有限MDP 有限MDP在RL中一般就是指如下图的交互式学习框架。(为了方便起见,把它当成离散化的过程) 其“有限”的特点表现在:state、reward、action三者只 阅读全文
posted @ 2024-02-26 16:07 llllllgllllll 阅读(4) 评论(0) 推荐(0) 编辑