05 2024 档案
摘要:之前有实现Q-Learning走迷宫,本篇实现SARSA走迷宫。 Q-Learning是一种off-policy算法,当前步采取的决策action不直接作用于环境生成下一次state,而是选择最优的奖励来更新Q表。 更新公式: SARSA是一种on-policy算法,当前步采取的策略action既直
阅读全文
摘要:之前有通过ode和simulink解线性常微分方程组。 除了上面两种方法,线性常微分方程组还可以通过矩阵的方法求解。 比如下面这个之前使用的方程组: x'' = x' - x + y' -z' y'' = y' - y - x' z'' = z' - z + x' 可以写成下面矩阵形式: 设这个矩阵
阅读全文
摘要:如果想做基于图像cnn的深度强化学习,需要拿到gym的截图,下面是两种截图方法。 1. 利用render结果生成图像: import gym import warnings import os from PIL import Image warnings.filterwarnings("ignore
阅读全文