强化学习----动态规划

对于马尔可夫决策过程,环境的知识是已知的,各种转移概率是知道,在有限的策略空间和状态空间下是可以求解的。

本处提供了两种优化策略的通用方式,主要还是迭代策略在该场景中的应用,并无太多特殊之处。

 

posted @ 2018-12-12 10:44  Lucas_Yu  阅读(169)  评论(0编辑  收藏  举报