会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
人工智站
博客园
首页
联系
订阅
管理
2019年2月13日
强化学习-MDP(马尔可夫决策过程)算法原理
摘要: 1. 前言 前面的 "强化学习基础知识" 介绍了强化学习中的一些基本元素和整体概念。今天讲解强化学习里面最最基础的MDP(马尔可夫决策过程)。 2. MDP定义 MDP是当前强化学习理论推导的基石,通过这套框架,强化学习的交互流程可以很好地以概率论的形式表示出来,解决强化学习问题的关键定理也可以依此
阅读全文
posted @ 2019-02-13 21:30 hyc339408769
阅读(9570)
评论(3)
推荐(1)
编辑
公告