2024 年 2月 26 日随笔档案 - llllllgllllll

2024年2月26日

摘要：本文参考《Reinforcement Learning：An Introduction（2nd Edition）》Sutton 有限MDP 有限MDP在RL中一般就是指如下图的交互式学习框架。（为了方便起见，把它当成离散化的过程）其“有限”的特点表现在：state、reward、action三者只阅读全文

posted @ 2024-02-26 16:07 llllllgllllll 阅读(4) 评论(0) 推荐(0) 编辑

公告