mujoco gymnasium 环境
本文简要介绍 gymnasium 中基于 mujoco 的环境搭建。参照 gymnasium.envs.mujoco
。
1. gymnasium.Env 简介
在 gymnasium 中,环境基类为 gymnasium.Env
,其中定义了 step
, reset
, render
, close
等方法以及 action_space
, observation_space
, reward_range
, spec
, metadata
, np_random
等属性。它们的具体含义如下:
step(elf, action: ActType) -> tuple[ObsType, SupportsFloat, bool, bool, dict[str, Any]]
该方法通过输入一个 action
,执行一个仿真步,并返回 observation
, reward
, terminated
, truncated
, info
, done
等信息。
reset(self, *, seed: int | None = None, options: dict[str, Any] | None = None, ) -> tuple[ObsType, dict[str, Any]]
该方法通过输入一个 seed
,将场景中物体重置为随机状态,并返回 observation
, info
等信息。
render(self) -> RenderFrame | list[RenderFrame] | None
该方法渲染场景,并返回渲染结果。
close()
关闭并清理场景。
2. mujoco_env.BaseMujocoEnv 、 mujoco.MuJocoPyEnv 以及 mujoco.MujocoEnv
在 mujoco_env.py 文件中,首先定义了 BaseMujocoEnv
作为 mujoco 仿真环境的基类。