摘要: #学习目标 1.了解Agent-Environment交互 2.了解什么是MDP(马尔可夫决策过程)以及如何解释过渡图 3.了解价值函数,动作价值函数和策略函数 4.了解价值函数和动作值函数的Bellman方程和Bellman最优性方程 1.智能体和环境交互:智能体在每个步骤t接收状态S_t,执行动 阅读全文
posted @ 2020-08-16 14:43 feifanren 阅读(235) 评论(0) 推荐(0) 编辑