会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
DemonSlayer
花无凋零之日,意无传递之时,爱情亘古不变,紫罗兰永世长存。
博客园
首页
新随笔
联系
订阅
管理
2021年2月4日
博雅大数据机器学习十讲第十讲
摘要: 数学模型:马尔可夫决策过程$(MDP)$ 强化学习方法形式化为$MDP$,$MDP$是序列决策算法的一般数学框架 通常将$MDP$表示为四元组$(S,A,P,R)$: $S$表示状态空间,是描述环境的状态,表示为$S={s_1,s_2,s_3,...}$ $A$表示行动空间,是智能体可执行的行动,表
阅读全文
posted @ 2021-02-04 12:58 DemonSlayer
阅读(113)
评论(0)
推荐(0)
编辑
公告