有多少人工,就有多少智能

04 2024 档案

摘要:BipedalWalker-v3是一个简单的4关节行走机器人环境,用于强化学习任务。这个环境有两个版本:普通版(Normal)和高难度版(Hardcore)。 普通版的地形略为不平,而高难度版包含梯子、树桩和陷阱。在普通版中,要解决问题,需要在1600个时间步内获得300分。在高难度版中,需要在20 阅读全文
posted @ 2024-04-08 14:34 lvdongjie-avatarx 阅读(256) 评论(0) 推荐(0) 编辑
摘要:关于GYM的render mode = 'human’渲染问题在使用render_mode = 'human’时,会出现无论何时都会自动渲染动画的问题,比如下述算法 此时就算是在训练过程中也会调用进行动画的渲染,极大地降低了效率,毕竟我的目的只是想通过渲染检测一下最终的效果而已 import Q_l 阅读全文
posted @ 2024-04-08 13:28 lvdongjie-avatarx 阅读(171) 评论(0) 推荐(0) 编辑
摘要:各算法在不同环境中的表现:来自天寿基准测试 https://tianshou.org/en/stable/01_tutorials/06_benchmark.html1. HalfCheetah-v3 SAC > DDPG > TD3 > PPO > TRPO > NPG > ACKTR > A2C 阅读全文
posted @ 2024-04-07 15:55 lvdongjie-avatarx 阅读(30) 评论(0) 推荐(0) 编辑
摘要:CartPole V1包括一辆载着杆子在轨道上移动的推车。这是一个具有离散动作空间的简单环境。 以下是 CartPole- 有用字段的详细信息: state:车的位置、车的速度、杆的角度、杆尖的速度; action:只能是以下之一,表示向左移动、不移动和向右移动;[0, 1, 2] reward:你 阅读全文
posted @ 2024-04-03 17:33 lvdongjie-avatarx 阅读(158) 评论(0) 推荐(0) 编辑
摘要:适用于连续动作空间的强化学习算法通常被称为Actor-Critic算法。以下是一些主要的适用于连续动作空间的强化学习算法: Deep Deterministic Policy Gradient (DDPG): DDPG是一种基于Actor-Critic框架的算法,它结合了确定性策略梯度(Determ 阅读全文
posted @ 2024-04-03 17:26 lvdongjie-avatarx 阅读(317) 评论(0) 推荐(0) 编辑
摘要:适用于离散动作空间的强化学习算法有很多,以下是其中一些主要的算法: Q-Learning: 是经典的离散动作空间强化学习算法之一,它通过迭代地更新动作值函数(Q函数)来学习最优策略。Q-Learning通常使用ε-greedy策略进行动作选择。 Deep Q-Network (DQN): DQN是一 阅读全文
posted @ 2024-04-03 17:23 lvdongjie-avatarx 阅读(434) 评论(0) 推荐(0) 编辑
摘要:nvidia 4060 cuda 11.7 python 3.11 pip install poetrygit clone git@github.com:thu-ml/tianshou.git@v1.0.0cd tianshoupoetry installpip install opencv-pyt 阅读全文
posted @ 2024-04-03 17:05 lvdongjie-avatarx 阅读(30) 评论(0) 推荐(0) 编辑
摘要:High Software Engineering Standards RL PlatformDocumentationCode CoverageType HintsLast Update Baselines ❌ ❌ ❌ Stable-Baselines ❌ Stable-Baselines3 ✔️ 阅读全文
posted @ 2024-04-03 10:42 lvdongjie-avatarx 阅读(22) 评论(0) 推荐(0) 编辑