2020 年 4月 27 日随笔档案 - MayeZhang

2020年4月27日

摘要：在很多应用场景中，马尔可夫决策过程的状态转移概率 \(p(s^ {\prime}|s,a)\) 和奖励函数 \(r\left( {s,a,s^{\prime}} \right)\) 都是未知的。这种情况一般需要智能体与环境交互，然后收集一些样本，然后再根据这些样本来求解最优策略，这种基于采样的学习方阅读全文

posted @ 2020-04-27 16:40 MayeZhang 阅读(1181) 评论(0) 推荐(0) 编辑

Loading

@张马也

公告