会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
feifanren
博客园
首页
新随笔
联系
订阅
管理
2020年8月16日
强化学习学习笔记(1):MDPs and Bellman Equations
摘要: #学习目标 1.了解Agent-Environment交互 2.了解什么是MDP(马尔可夫决策过程)以及如何解释过渡图 3.了解价值函数,动作价值函数和策略函数 4.了解价值函数和动作值函数的Bellman方程和Bellman最优性方程 1.智能体和环境交互:智能体在每个步骤t接收状态S_t,执行动
阅读全文
posted @ 2020-08-16 14:43 feifanren
阅读(238)
评论(0)
推荐(0)
编辑
公告