2024 年 4月 3 日随笔档案 - lvdongjie-avatarx

2024年4月3日

摘要： CartPole V1包括一辆载着杆子在轨道上移动的推车。这是一个具有离散动作空间的简单环境。以下是 CartPole- 有用字段的详细信息： state：车的位置、车的速度、杆的角度、杆尖的速度； action：只能是以下之一，表示向左移动、不移动和向右移动；[0, 1, 2] reward：你阅读全文

posted @ 2024-04-03 17:33 lvdongjie-avatarx 阅读(214) 评论(0) 推荐(0) 编辑

适用于连续动作空间的强化学习算法-Actor-Critic算法族

摘要：适用于连续动作空间的强化学习算法通常被称为Actor-Critic算法。以下是一些主要的适用于连续动作空间的强化学习算法： Deep Deterministic Policy Gradient (DDPG): DDPG是一种基于Actor-Critic框架的算法，它结合了确定性策略梯度（Determ 阅读全文

posted @ 2024-04-03 17:26 lvdongjie-avatarx 阅读(418) 评论(0) 推荐(0) 编辑

适用于离散动作空间的强化学习算法

摘要：适用于离散动作空间的强化学习算法有很多，以下是其中一些主要的算法： Q-Learning: 是经典的离散动作空间强化学习算法之一，它通过迭代地更新动作值函数（Q函数）来学习最优策略。Q-Learning通常使用ε-greedy策略进行动作选择。 Deep Q-Network (DQN): DQN是一阅读全文

posted @ 2024-04-03 17:23 lvdongjie-avatarx 阅读(520) 评论(0) 推荐(0) 编辑

TianShou V1.0.0 在 Win10 安装过程

摘要： nvidia 4060 cuda 11.7 python 3.11 pip install poetrygit clone git@github.com:thu-ml/tianshou.git@v1.0.0cd tianshoupoetry installpip install opencv-pyt 阅读全文

posted @ 2024-04-03 17:05 lvdongjie-avatarx 阅读(44) 评论(0) 推荐(0) 编辑

RL 各平台比较

摘要： High Software Engineering Standards RL PlatformDocumentationCode CoverageType HintsLast Update Baselines ❌ ❌ ❌ Stable-Baselines ❌ Stable-Baselines3 ✔️ 阅读全文

posted @ 2024-04-03 10:42 lvdongjie-avatarx 阅读(25) 评论(0) 推荐(0) 编辑

lvdongjie-avatarx

此博客专攻人工智能。

公告