强化学习环境-倒立摆[CartPole]

CartPole V1包括一辆载着杆子在轨道上移动的推车。这是一个具有离散动作空间的简单环境。

以下是 CartPole- 有用字段的详细信息：

state：车的位置、车的速度、杆的角度、杆尖的速度；
action：只能是以下之一，表示向左移动、不移动和向右移动；[0, 1, 2]
reward：你每持续一个时间步，你就会收到 +1 reward；
done：如果 CartPole 超出范围或超时（杆与垂直方向的夹角超过 15 度，或者手推车从中心移动超过 2.4 个单位，或者您持续超过 200 个时间步）；
info：来自环境模拟的额外信息。

目标是训练一个能够在这种环境下获得最高奖励的良好策略。

CartPole V1 是 V0的增强版本，在V0中，结束条件相对宽松，杆子倾斜角度可以超过15°，小车可以超出范围，但V1会立刻终止，这使得V1更佳困难，需要更精确的控制策略来使杆子保持垂直。

posted @ 2024-04-03 17:33 lvdongjie-avatarx 阅读(472) 评论(0) 收藏举报

刷新页面返回顶部

lvdongjie-avatarx