2020 年 8月 16 日随笔档案 - feifanren

2020年8月16日

摘要： #学习目标 1.了解Agent-Environment交互 2.了解什么是MDP（马尔可夫决策过程）以及如何解释过渡图 3.了解价值函数，动作价值函数和策略函数 4.了解价值函数和动作值函数的Bellman方程和Bellman最优性方程 1.智能体和环境交互：智能体在每个步骤t接收状态S_t，执行动阅读全文

posted @ 2020-08-16 14:43 feifanren 阅读(238) 评论(0) 推荐(0) 编辑

feifanren

公告