05 2024 档案

摘要:之前有实现Q-Learning走迷宫,本篇实现SARSA走迷宫。 Q-Learning是一种off-policy算法,当前步采取的决策action不直接作用于环境生成下一次state,而是选择最优的奖励来更新Q表。 更新公式: SARSA是一种on-policy算法,当前步采取的策略action既直 阅读全文
posted @ 2024-05-18 20:36 Dsp Tian 阅读(127) 评论(0) 推荐(0) 编辑
摘要:之前有通过ode和simulink解线性常微分方程组。 除了上面两种方法,线性常微分方程组还可以通过矩阵的方法求解。 比如下面这个之前使用的方程组: x'' = x' - x + y' -z' y'' = y' - y - x' z'' = z' - z + x' 可以写成下面矩阵形式: 设这个矩阵 阅读全文
posted @ 2024-05-16 23:03 Dsp Tian 阅读(152) 评论(0) 推荐(1) 编辑
摘要:如果想做基于图像cnn的深度强化学习,需要拿到gym的截图,下面是两种截图方法。 1. 利用render结果生成图像: import gym import warnings import os from PIL import Image warnings.filterwarnings("ignore 阅读全文
posted @ 2024-05-12 20:21 Dsp Tian 阅读(62) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示