2019 年 2月 13 日随笔档案 - hyc339408769

2019年2月13日

摘要： 1. 前言前面的 "强化学习基础知识" 介绍了强化学习中的一些基本元素和整体概念。今天讲解强化学习里面最最基础的MDP（马尔可夫决策过程）。 2. MDP定义 MDP是当前强化学习理论推导的基石，通过这套框架，强化学习的交互流程可以很好地以概率论的形式表示出来，解决强化学习问题的关键定理也可以依此阅读全文

posted @ 2019-02-13 21:30 hyc339408769 阅读(9570) 评论(3) 推荐(1) 编辑

人工智站

公告