摘要: 上一篇配置成功gym环境后,就可以利用该环境做强化学习仿真了。 这里首先用之前学习过的qlearning来处理CartPole-v1模型。 CartPole-v1是一个倒立摆模型,目标是通过左右移动滑块保证倒立杆能够尽可能长时间倒立,最长步骤为500步。 模型控制量是左0、右1两个。 模型状态量为下 阅读全文
posted @ 2024-04-29 21:08 Dsp Tian 阅读(89) 评论(0) 推荐(0) 编辑