摘要: 一直在用zerotier的异地组网服务,过节回家可能是跨了运营商,所以p2p打洞失败,要构建moon节点加速 需要有公网ip的免费的哦云服务器,于是乎找到了三、feng-云(以前一直没有注册成功甲骨文) 支持win、linux等系统,一键安装宝塔,很方便 阅读全文
posted @ 2022-07-19 23:34 Tolshao 阅读(2135) 评论(0) 推荐(0) 编辑
摘要: 伴随着技术的进步,以前应用App才能接决的问题,都可以在 嗑盐人常用公式编辑器 分享一个在线latex公式编辑器 https://latex.91maths.com https://mathpix.com 识别公式(包括手写)、表格 Image2LaTeX 可以设置使用mathpix的api,每个月 阅读全文
posted @ 2021-01-27 14:26 Tolshao 阅读(1905) 评论(0) 推荐(0) 编辑
摘要: word设置备忘 一级标题使用中文一、题注使用数字1 “一.1”改为“1.1”而不改动章节编号(我用的是方法3) 方法1&2 更改正规化编号 更改样式 方法3 章节后添加自定义域代码,隐藏,公式题注章节引用这个域代码 更改正规化编号 更改样式 章节后添加自定义域代码,隐藏,公式题注章节引用这个域代码 阅读全文
posted @ 2021-01-27 14:20 Tolshao 阅读(227) 评论(0) 推荐(0) 编辑
摘要: 什么是HiDPI 全名:High Dots Per Inch 它使用横纵 2 个物理像素也就是 4 个物理像素来显示 1 个像素区域,结果就是图像的细节得到翻倍、更清晰、边缘更平滑。 拿 13 寸的 MacBook Pro 举例,它的屏幕物理分辨率是 2560 x 1600,所以原生的 HiDPI 阅读全文
posted @ 2021-01-27 14:18 Tolshao 阅读(4728) 评论(0) 推荐(0) 编辑
摘要: Texpad实时编译注意Texpad live 支持实时编译缺点:不支持高级packages,如cref经过验证,下列包不支持实时编译\crefname{figure}{Fig.}{Figs.}\crefname{table}{Table.}{Tables.}\crefname{appendix}{}{}\crefname{equation}{}{}所以最后文档定型之后,调整格式的时候再添加强制使... 阅读全文
posted @ 2020-10-25 16:35 Tolshao 阅读(846) 评论(0) 推荐(0) 编辑
摘要: gym入门gym是用于开发和比较强化学习算法的工具包。它不对代理的结构做任何假设,并且与任何数字计算库(例如TensorFlow或Theano)兼容。gym库是测试问题(环境)的集合,您可以用来制定强化学习算法。这些环境具有共享的接口,使您可以编写常规算法。安装首先,您需要安装Python 3.5+。只需使用pip安装gym:如果你的电脑中存在系统版本Python2,那你可能要用pip3来安装pi... 阅读全文
posted @ 2020-09-08 16:05 Tolshao 阅读(2065) 评论(0) 推荐(0) 编辑
摘要: 参考自知乎(叶强)Introduction在实践2中,介绍了gym环境的定义和使用方法。在实践1中,介绍了 动态规划DP 求解 价值函数并没有形成一个策略Policy\(\pi\)来指导agent的动作选取,本节将利用SARSA(0)的学习方法,帮助agent学习到价值函数(表),指导\(\epsilon\)-greedy策略选取动作。Agent的写法Agent的三要素是:价值函数、策略、模型本节... 阅读全文
posted @ 2020-09-08 14:58 Tolshao 阅读(432) 评论(0) 推荐(0) 编辑
摘要: 1、前沿 state of art学习经典游戏的原因规则简单,细思又很深入历史悠久,已经被研究了几百年对IQ测试有意义是现实世界的问题的缩影已经有很多RL案例,战胜了人类,例如2、游戏理论 game theory游戏的最优性对于石头剪刀布来说,最优策略,显然和对手agent策略相关,我们期望找到一种一致的策略策略,对所有对手都有效什么是第i个玩家的最优策略\(\pi\)最佳响应 best resp... 阅读全文
posted @ 2020-09-08 14:58 Tolshao 阅读(683) 评论(0) 推荐(0) 编辑
摘要: 这里有很多形象的图,方便理解强化学习的公式知乎白话强化学习,有空了可以来看强化学习-11:Matlab RLAgent: 由Policy 和 RL_Algorithm构成policy负责将observation映射为actionRL_Algorithm负责优化policyEnviroment:输入action输出reward、state内部执行状态转移、判断是否任务终止等关键定义Reward:根据... 阅读全文
posted @ 2020-09-08 14:57 Tolshao 阅读(673) 评论(0) 推荐(0) 编辑
摘要: RL实践1——值迭代求解随机策略参考自叶强《强化学习》第三讲,方格世界—— 使用 动态规划 求解随机策略动态规划的使用条件时MDP已知,在简单游戏中,这个条件时显然成立的使用Value iteration的方法求解每个状态的价值函数,迭代收敛之后,对应最优策略生成。注意:动态规划和强化学习都用的价值函数,区别在于动态规划需要基于模型获取采取动作后下一时刻的状态,已进行评估,需要MDP模型已知;强化... 阅读全文
posted @ 2020-09-03 15:34 Tolshao 阅读(360) 评论(0) 推荐(0) 编辑