摘要: 强化学习——值迭代算法 代码是在 jupyter notebook 环境下编写 只需要 numpy 和 matplotlib 包。 此代码为学习赵世钰老师强化学习课程之后,按照公式写出来的代码,对应第四章第一节 value iterator algorithm 可以做的实验: 调整 gama 值观察 阅读全文
posted @ 2024-05-14 16:02 Hoppz 阅读(66) 评论(0) 推荐(0) 编辑