有多少人工,就有多少智能

强化学习环境-倒立摆[CartPole]

                           

 

 

CartPole V1包括一辆载着杆子在轨道上移动的推车。这是一个具有离散动作空间的简单环境。

以下是 CartPole- 有用字段的详细信息:

  • state:车的位置、车的速度、杆的角度、杆尖的速度;

  • action:只能是以下之一,表示向左移动、不移动和向右移动;[0, 1, 2]

  • reward:你每持续一个时间步,你就会收到 +1 reward

  • done:如果 CartPole 超出范围或超时(杆与垂直方向的夹角超过 15 度,或者手推车从中心移动超过 2.4 个单位,或者您持续超过 200 个时间步);

  • info:来自环境模拟的额外信息。

目标是训练一个能够在这种环境下获得最高奖励的良好策略。

CartPole V1 是 V0的增强版本, 在V0中,结束条件相对宽松, 杆子倾斜角度可以超过15°,小车可以超出范围, 但V1会立刻终止, 这使得V1更佳困难, 需要更精确的控制策略来使杆子保持垂直。

posted @ 2024-04-03 17:33  lvdongjie-avatarx  阅读(79)  评论(0编辑  收藏  举报