强化学习 - 随笔分类 - lvdongjie-avatarx

模型部署 - TensorRT - NVIDIA 讲 TensorRT - 8.6.1版本 - 性能优化

摘要：阅读全文

posted @ 2024-07-15 16:52 lvdongjie-avatarx 阅读(27) 评论(0) 推荐(0) 编辑

模型部署 - TensorRT - NVIDIA 讲 TensorRT - 8.6.1版本 - 高级话题

摘要：阅读全文

posted @ 2024-07-14 21:42 lvdongjie-avatarx 阅读(10) 评论(0) 推荐(0) 编辑

模型部署 - TensorRT - NVIDIA 讲 TensorRT - 8.6.1版本 - 5种工具

摘要：阅读全文

posted @ 2024-07-14 20:41 lvdongjie-avatarx 阅读(12) 评论(0) 推荐(0) 编辑

模型部署 - TensorRT - NVIDIA 讲 TensorRT - 8.6.1版本

摘要：阅读全文

posted @ 2024-07-14 10:24 lvdongjie-avatarx 阅读(19) 评论(0) 推荐(0) 编辑

模型部署 - TensorRT & Triton 学习

摘要：先介绍TensorRT、Triton的关系和区别： TensorRT：为inference（推理）为生，是NVIDIA研发的一款针对深度学习模型在GPU上的计算，显著提高GPU上的模型推理性能。即一种专门针对高性能推理的模型框架，也可以解析其他框架的模型如tensorflow、torch。主要优化阅读全文

posted @ 2024-07-13 18:42 lvdongjie-avatarx 阅读(319) 评论(0) 推荐(0) 编辑

模型部署之 TensorFlow Serving

摘要：TensorFlow Serving是一个开源的机器学习模型服务系统,由Google开发并贡献给开源社区。它主要用于部署和管理TensorFlow训练的模型,提供高性能、可扩展的推理服务。 TensorFlow Serving的主要功能和特点包括: 多版本模型管理:支持同时部署和管理多个版本的Ten 阅读全文

posted @ 2024-07-13 17:48 lvdongjie-avatarx 阅读(90) 评论(0) 推荐(0) 编辑

BipedalWalker 环境

摘要：BipedalWalker-v3是一个简单的4关节行走机器人环境，用于强化学习任务。这个环境有两个版本：普通版（Normal）和高难度版（Hardcore）。普通版的地形略为不平，而高难度版包含梯子、树桩和陷阱。在普通版中，要解决问题，需要在1600个时间步内获得300分。在高难度版中，需要在20 阅读全文

posted @ 2024-04-08 14:34 lvdongjie-avatarx 阅读(256) 评论(0) 推荐(0) 编辑

关于GYM的render mode = ‘human’渲染问题

摘要：关于GYM的render mode = 'human’渲染问题在使用render_mode = 'human’时，会出现无论何时都会自动渲染动画的问题，比如下述算法此时就算是在训练过程中也会调用进行动画的渲染，极大地降低了效率,毕竟我的目的只是想通过渲染检测一下最终的效果而已 import Q_l 阅读全文

posted @ 2024-04-08 13:28 lvdongjie-avatarx 阅读(171) 评论(0) 推荐(0) 编辑

强化学习算法性能表现

摘要：各算法在不同环境中的表现：来自天寿基准测试 https://tianshou.org/en/stable/01_tutorials/06_benchmark.html1. HalfCheetah-v3 SAC > DDPG > TD3 > PPO > TRPO > NPG > ACKTR > A2C 阅读全文

posted @ 2024-04-07 15:55 lvdongjie-avatarx 阅读(30) 评论(0) 推荐(0) 编辑

强化学习环境-倒立摆[CartPole]

摘要：CartPole V1包括一辆载着杆子在轨道上移动的推车。这是一个具有离散动作空间的简单环境。以下是 CartPole- 有用字段的详细信息： state：车的位置、车的速度、杆的角度、杆尖的速度； action：只能是以下之一，表示向左移动、不移动和向右移动；[0, 1, 2] reward：你阅读全文

posted @ 2024-04-03 17:33 lvdongjie-avatarx 阅读(158) 评论(0) 推荐(0) 编辑

适用于连续动作空间的强化学习算法-Actor-Critic算法族

摘要：适用于连续动作空间的强化学习算法通常被称为Actor-Critic算法。以下是一些主要的适用于连续动作空间的强化学习算法： Deep Deterministic Policy Gradient (DDPG): DDPG是一种基于Actor-Critic框架的算法，它结合了确定性策略梯度（Determ 阅读全文

posted @ 2024-04-03 17:26 lvdongjie-avatarx 阅读(317) 评论(0) 推荐(0) 编辑

适用于离散动作空间的强化学习算法

摘要：适用于离散动作空间的强化学习算法有很多，以下是其中一些主要的算法： Q-Learning: 是经典的离散动作空间强化学习算法之一，它通过迭代地更新动作值函数（Q函数）来学习最优策略。Q-Learning通常使用ε-greedy策略进行动作选择。 Deep Q-Network (DQN): DQN是一阅读全文

posted @ 2024-04-03 17:23 lvdongjie-avatarx 阅读(434) 评论(0) 推荐(0) 编辑

TianShou V1.0.0 在 Win10 安装过程

摘要：nvidia 4060 cuda 11.7 python 3.11 pip install poetrygit clone git@github.com:thu-ml/tianshou.git@v1.0.0cd tianshoupoetry installpip install opencv-pyt 阅读全文

posted @ 2024-04-03 17:05 lvdongjie-avatarx 阅读(30) 评论(0) 推荐(0) 编辑

RL 各平台比较

摘要：High Software Engineering Standards RL PlatformDocumentationCode CoverageType HintsLast Update Baselines ❌ ❌ ❌ Stable-Baselines ❌ Stable-Baselines3 ✔️ 阅读全文

posted @ 2024-04-03 10:42 lvdongjie-avatarx 阅读(22) 评论(0) 推荐(0) 编辑

强化学习 (Reinforcement Learning)

摘要：详细内容简介根据维基百科对强化学习的定义：Reinforcement learning (RL) is an area of machine learning inspired by behaviorist psychology, concerned with how software agen 阅读全文

posted @ 2022-05-21 19:28 lvdongjie-avatarx 阅读(979) 评论(0) 推荐(0) 编辑

lvdongjie-avatarx

此博客专攻人工智能。

随笔分类 - 强化学习

公告