摘要: INTRO 马尔科夫决策过程(Markov Decision Process)是决策理论规划、强化学习等的一种直观和基本的模型。在这个模型中,环境通过一组状态和动作进行建模,然后被执行以控制系统的状态。通过这种方式控制系统的目的是最大化一个模型的性能指标。这其中的很多问题都可以通过马尔科夫决策过程建 阅读全文
posted @ 2020-09-24 23:42 TuringM 阅读(610) 评论(0) 推荐(0) 编辑