上一页 1 2 3 4 5 6 ··· 73 下一页
摘要: 上一篇配置成功gym环境后,就可以利用该环境做强化学习仿真了。 这里首先用之前学习过的qlearning来处理CartPole-v1模型。 CartPole-v1是一个倒立摆模型,目标是通过左右移动滑块保证倒立杆能够尽可能长时间倒立,最长步骤为500步。 模型控制量是左0、右1两个。 模型状态量为下 阅读全文
posted @ 2024-04-29 21:08 Dsp Tian 阅读(74) 评论(0) 推荐(0) 编辑
摘要: gym是python中的一个强化学习环境,想要完整配置并跑起来坑还是比较多的。 下面记录一下Windows完整安装过程,Linux下过程基本类似。 1. 执行pip install gym直接安装的是0.26.2版本,网上常见的代码无法兼容,这里安装0.25.2版,并且安装对应的pygame。 执行 阅读全文
posted @ 2024-04-20 12:58 Dsp Tian 阅读(744) 评论(0) 推荐(0) 编辑
摘要: 当时写stanley就实现了,贴上来记录一下。 方法示意图: 控制率公式: 其中L为轴距,e为横向误差,v为车辆速度,lambda和c为控制参数。 算法步骤如下: 1. 根据当前定位结果找到路径最邻近点。 2. 计算该点与定位结果横向误差e。 3. 根据控制率公式计算出前轮转角。 4. 将前轮转角转 阅读全文
posted @ 2024-04-05 17:24 Dsp Tian 阅读(61) 评论(0) 推荐(0) 编辑
摘要: 如果一个机器上有多个gpu,可以使用多gpu训练。 一般数据量和模型比较大的时候训练速度会有明显的提升,模型和数据比较小的时候反而可能因为数据通信原因导致性能下降。 下面是一个简单的例子: import time import torch import torchvision.models from 阅读全文
posted @ 2024-03-31 17:53 Dsp Tian 阅读(26) 评论(0) 推荐(0) 编辑
摘要: 有时候pip下载安装特别慢,可以考虑更换下载源: 清华源: pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple 阿里源: pip config set global.index-url https://mi 阅读全文
posted @ 2024-03-31 15:45 Dsp Tian 阅读(13) 评论(0) 推荐(0) 编辑
摘要: 主要用了两个库:pipdeptree和pyecharts。 pipdeptree用来解析所有库的依赖关系。 pyecharts用来显示依赖的网络关系。 通常的方法应该是通过输入下面命令: pipdeptree --json-tree > pkg.json 得到关系树文件,然后解析该文件并在pyech 阅读全文
posted @ 2024-03-24 21:34 Dsp Tian 阅读(86) 评论(0) 推荐(0) 编辑
摘要: 混合精度训练通常会结合使用单精度浮点数(float32)和半精度浮点数(float16),以提高训练效率和减少内存占用。 代码中关键在于两个地方: 1. 在with autocast():下,模型的前向传播和损失计算放在自动混合精度加速环境中进行。 2. 使用scaler对象进行混合精度训练的管理。 阅读全文
posted @ 2024-03-16 11:42 Dsp Tian 阅读(34) 评论(0) 推荐(0) 编辑
摘要: 昨天一切正常,今天ubuntu启动突然卡住了,一直停在黑屏光标界面。 在网上看到原因可能和nvidia驱动有关。 输入nvidia-smi报出题目中的错误。 一般这种错误都是在刚安装nvidia驱动后第一次启动可能出现,见我这篇文章。 不过这次是突然出现的,不是安装驱动后出现的,所以不是安装nvid 阅读全文
posted @ 2024-02-24 21:52 Dsp Tian 阅读(493) 评论(0) 推荐(0) 编辑
摘要: Schur 补是一种矩阵分解方法,通过将一个大的矩阵分解为几个较小的矩阵来简化计算,通常能够提高矩阵求逆的速度。 对于形如下面的矩阵: 可以把矩阵划分为左上、右上、左下、右下四个分块矩阵。 得到矩阵: 根据A和D的奇异性,可以分两种情况。 如果A可逆,则有: 如果D可逆,则有: 公式两边同时求逆,得 阅读全文
posted @ 2024-02-16 15:19 Dsp Tian 阅读(85) 评论(0) 推荐(0) 编辑
摘要: Q-Learning是一种基于值函数的强化学习算法,这里用该算法解决走迷宫问题。 算法步骤如下: 1. 初始化 Q 表:每个表格对应状态动作的 Q 值。这里就是一个H*W*4的表,4代表上下左右四个动作。 2. 选择动作: 根据 Q 表格选择最优动作或者以一定概率随机选择动作。 3. 执行动作,得到 阅读全文
posted @ 2024-02-15 13:08 Dsp Tian 阅读(328) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 73 下一页