摘要: 概念解释 同轨(on policy)策略: 用于生成采样数据序列的策略和用于实际决策的待评估和改进的策略是一样的。在同轨策略方法中,策略一般是软性的(选中任何一个动作的概率大于某个值),会逐渐逼近一个确定性策略。 【同轨策略算法的蒙特卡罗控制的总体思想依然是GPI,采用首次访问型MC算法来估计当前策 阅读全文
posted @ 2021-05-24 11:21 芋圆院长 阅读(982) 评论(0) 推荐(0) 编辑