Loading

摘要: 在很多应用场景中,马尔可夫决策过程的状态转移概率 \(p(s^ {\prime}|s,a)\) 和奖励函数 \(r\left( {s,a,s^{\prime}} \right)\) 都是未知的。这种情况一般需要智能体与环境交互,然后收集一些样本,然后再根据这些样本来求解最优策略,这种基于采样的学习方 阅读全文
posted @ 2020-04-27 16:40 MayeZhang 阅读(1181) 评论(0) 推荐(0) 编辑