强化学习----动态规划

对于马尔可夫决策过程，环境的知识是已知的，各种转移概率是知道，在有限的策略空间和状态空间下是可以求解的。

本处提供了两种优化策略的通用方式，主要还是迭代策略在该场景中的应用，并无太多特殊之处。

posted @ 2018-12-12 10:44 Lucas_Yu 阅读(181) 评论(0) 收藏举报

刷新页面返回顶部