摘要:
这里置顶一个索引吧,方便所有人查找。 基础与技巧: matlab练习程序(Schur补) matlab练习程序(正交分解) matlab练习程序(GPU加速) matlab练习程序(生成gif图片) matlab练习程序(克莱姆法则解方程) matlab练习程序(读取列不一致的数据) matlab练 阅读全文
摘要:
Sinkhorn算法是为了解决最优传输问题,该问题是给定两个概率分布u和v,找到一个方法,使其从u转换到v的代价最小。 具体到这里是找到了一个转移矩阵。 算法步骤如下: 1. 给定两个概率分布u和v,其中u和v是归一化后数据,维度分别为m和n。 2. 给定矩阵K(m,n),K=1.0/(m*n)。 阅读全文
摘要:
使用下面命令: ssh-copy-id root@192.168.0.1 登陆服务器,只需要输入一次密码,该命令会把本地公钥拷到服务器上,不需要重复输入密码了。 阅读全文
摘要:
这里用了gensim和jiba分词库,jensim原生是支持英文的,如果想使用中文word2vec,还需要自己训练一下。 中文语料库可以在这里下载:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.b 阅读全文
摘要:
tensorflow和tensorboard都正常安装之后。 输入: tensorboard --logdir=results/logs 报出ValueError: Duplicate plugins for name projector错误。 原因可能是命令前没加sudo。 执行: sudo te 阅读全文
摘要:
ubuntu系统gcc版本太高导致cuda编译报错,可以手动切换gcc版本: #切换gcc版本 sudo update-alternatives --config gcc #切换g++版本 sudo update-alternatives --config g++ 阅读全文
摘要:
DQN是强化学习中的一种方法,是对Q-Learning的扩展。 通过引入深度神经网络、经验回放和目标网络等技术,使得Q-Learning算法能够在高维、连续的状态空间中应用,解决了传统Q-Learning方法在这些场景下的局限性。 Q-Learning可以见之前的文章。 算法的几个关键点: 1. 深 阅读全文
摘要:
LQR 是一种优化控制方法,设计目标是找到一组控制输入,使得线性系统的状态轨迹尽可能地接近目标,同时使控制输入尽可能小。其目标函数是一个二次型成本函数。 分为以下几个步骤: 1. 设系统动态方程为: 其中x为状态量,u为控制输入,A和B为状态转移和控制矩阵。 2. 定义一个性能指标,即控制器的优化目 阅读全文
摘要:
之前有实现Q-Learning走迷宫,本篇实现SARSA走迷宫。 Q-Learning是一种off-policy算法,当前步采取的决策action不直接作用于环境生成下一次state,而是选择最优的奖励来更新Q表。 更新公式: SARSA是一种on-policy算法,当前步采取的策略action既直 阅读全文
摘要:
之前有通过ode和simulink解线性常微分方程组。 除了上面两种方法,线性常微分方程组还可以通过矩阵的方法求解。 比如下面这个之前使用的方程组: x'' = x' - x + y' -z' y'' = y' - y - x' z'' = z' - z + x' 可以写成下面矩阵形式: 设这个矩阵 阅读全文
摘要:
如果想做基于图像cnn的深度强化学习,需要拿到gym的截图,下面是两种截图方法。 1. 利用render结果生成图像: import gym import warnings import os from PIL import Image warnings.filterwarnings("ignore 阅读全文