摘要: 算法流程图 Q-learning SARSA 对比:Q-learning算法根据当前状态 S 选择执行一个动作A,执行后观测执行后的奖励和转移到的状态S1。在状态S1下计算采取哪个a可以获得最大的Q值,并没有真的采取这个a。Q-learning选择到新状态之后能够得到的最大的Q值来更新当前的Q值。 阅读全文
posted @ 2021-10-18 20:12 一丨 阅读(269) 评论(0) 推荐(0) 编辑