mujoco gymnasium 环境

本文简要介绍 gymnasium 中基于 mujoco 的环境搭建。参照 gymnasium.envs.mujoco


1. gymnasium.Env 简介

在 gymnasium 中,环境基类为 gymnasium.Env,其中定义了 step, reset, render, close 等方法以及 action_space, observation_space, reward_range, spec, metadata, np_random 等属性。它们的具体含义如下:

step(elf, action: ActType) -> tuple[ObsType, SupportsFloat, bool, bool, dict[str, Any]] 该方法通过输入一个 action,执行一个仿真步,并返回 observation, reward, terminated, truncated, info, done 等信息。

reset(self, *, seed: int | None = None, options: dict[str, Any] | None = None, ) -> tuple[ObsType, dict[str, Any]] 该方法通过输入一个 seed,将场景中物体重置为随机状态,并返回 observation, info 等信息。

render(self) -> RenderFrame | list[RenderFrame] | None 该方法渲染场景,并返回渲染结果。

close() 关闭并清理场景。


2. mujoco_env.BaseMujocoEnv 、 mujoco.MuJocoPyEnv 以及 mujoco.MujocoEnv

在 mujoco_env.py 文件中,首先定义了 BaseMujocoEnv 作为 mujoco 仿真环境的基类。

posted @ 2024-08-11 11:56  wghou09  阅读(55)  评论(0编辑  收藏  举报