摘要: RL是一个序列化决策过程,核心思想是通过与环境的不断交互学习获得最大回报; 大部分RL方法都是基于MDP的;MDP的本质是获得一个可以使累计收益最大化的策略,并使用该策略选择最佳动作; 动态规划是RL中的一个关键技术,适用于RL中已知模型求解最优策略的特殊情况,主要有 策略迭代 和 值迭代 两种方法 阅读全文
posted @ 2020-09-26 12:04 liubilan 阅读(1266) 评论(0) 推荐(0) 编辑