2018 年 7月 17 日随笔档案 - initial_h

摘要： MDP概述马尔科夫决策过程(Markov Decision Process)是强化学习(reinforcement learning)最基本的模型框架。它对序列化的决策过程做了很多限制。比如状态$S_t$和动作$a_t$只有有限个、$(S_t,a_t)$对应的回报$R_t$ 阅读全文

posted @ 2018-07-17 10:52 initial_h 阅读(4814) 评论(0) 推荐(1) 编辑

initial_h