2020 年 9月 26 日随笔档案 - liubilan

2020年9月26日

摘要： RL是一个序列化决策过程，核心思想是通过与环境的不断交互学习获得最大回报；大部分RL方法都是基于MDP的；MDP的本质是获得一个可以使累计收益最大化的策略，并使用该策略选择最佳动作；动态规划是RL中的一个关键技术，适用于RL中已知模型求解最优策略的特殊情况，主要有策略迭代和值迭代两种方法阅读全文

posted @ 2020-09-26 12:04 liubilan 阅读(1266) 评论(0) 推荐(0) 编辑

liubilan

缘如过江之鲫，行之匆匆

公告