2021 年 10月 18 日随笔档案 - 一丨

2021年10月18日

摘要：算法流程图 Q-learning SARSA 对比：Q-learning算法根据当前状态 S 选择执行一个动作A，执行后观测执行后的奖励和转移到的状态S1。在状态S1下计算采取哪个a可以获得最大的Q值，并没有真的采取这个a。Q-learning选择到新状态之后能够得到的最大的Q值来更新当前的Q值。阅读全文

posted @ 2021-10-18 20:12 一丨阅读(302) 评论(0) 推荐(0) 编辑

一丨

公告