Tolshao

2022年7月19日

摘要：一直在用zerotier的异地组网服务，过节回家可能是跨了运营商，所以p2p打洞失败，要构建moon节点加速需要有公网ip的免费的哦云服务器，于是乎找到了三、feng-云（以前一直没有注册成功甲骨文）支持win、linux等系统，一键安装宝塔，很方便阅读全文

posted @ 2022-07-19 23:34 Tolshao 阅读(2135) 评论(0) 推荐(0) 编辑

2021年1月27日

编辑公式利器，Mathpix Snipping次数用完了吧

摘要：伴随着技术的进步，以前应用App才能接决的问题，都可以在嗑盐人常用公式编辑器分享一个在线latex公式编辑器 https://latex.91maths.com https://mathpix.com 识别公式（包括手写）、表格 Image2LaTeX 可以设置使用mathpix的api，每个月阅读全文

posted @ 2021-01-27 14:26 Tolshao 阅读(1905) 评论(0) 推荐(0) 编辑

word设置备忘

摘要： word设置备忘一级标题使用中文一、题注使用数字1 “一.1”改为“1.1”而不改动章节编号（我用的是方法3）方法1&2 更改正规化编号更改样式方法3 章节后添加自定义域代码，隐藏，公式题注章节引用这个域代码更改正规化编号更改样式章节后添加自定义域代码，隐藏，公式题注章节引用这个域代码阅读全文

posted @ 2021-01-27 14:20 Tolshao 阅读(227) 评论(0) 推荐(0) 编辑

mac开启HiDPI

摘要：什么是HiDPI 全名：High Dots Per Inch 它使用横纵 2 个物理像素也就是 4 个物理像素来显示 1 个像素区域，结果就是图像的细节得到翻倍、更清晰、边缘更平滑。拿 13 寸的 MacBook Pro 举例，它的屏幕物理分辨率是 2560 x 1600，所以原生的 HiDPI 阅读全文

posted @ 2021-01-27 14:18 Tolshao 阅读(4728) 评论(0) 推荐(0) 编辑

2020年10月25日

Latex设置

摘要： Texpad实时编译注意Texpad live 支持实时编译缺点：不支持高级packages，如cref经过验证，下列包不支持实时编译\crefname{figure}{Fig.}{Figs.}\crefname{table}{Table.}{Tables.}\crefname{appendix}{}{}\crefname{equation}{}{}所以最后文档定型之后，调整格式的时候再添加强制使... 阅读全文

posted @ 2020-10-25 16:35 Tolshao 阅读(846) 评论(0) 推荐(0) 编辑

2020年9月8日

强化学习仿真环境搭建入门Getting Started with OpenAI gym

摘要： gym入门gym是用于开发和比较强化学习算法的工具包。它不对代理的结构做任何假设，并且与任何数字计算库(例如TensorFlow或Theano)兼容。gym库是测试问题(环境)的集合，您可以用来制定强化学习算法。这些环境具有共享的接口，使您可以编写常规算法。安装首先，您需要安装Python 3.5+。只需使用pip安装gym：如果你的电脑中存在系统版本Python2，那你可能要用pip3来安装pi... 阅读全文

posted @ 2020-09-08 16:05 Tolshao 阅读(2065) 评论(0) 推荐(0) 编辑

RL实践3——为Agent添加Policy、记忆功能

摘要：参考自知乎（叶强）Introduction在实践2中，介绍了gym环境的定义和使用方法。在实践1中，介绍了动态规划DP 求解价值函数并没有形成一个策略Policy\(\pi\)来指导agent的动作选取，本节将利用SARSA（0）的学习方法，帮助agent学习到价值函数(表），指导\(\epsilon\)-greedy策略选取动作。Agent的写法Agent的三要素是：价值函数、策略、模型本节... 阅读全文

posted @ 2020-09-08 14:58 Tolshao 阅读(432) 评论(0) 推荐(0) 编辑

强化学习笔记10：经典游戏示例 classic games

摘要： 1、前沿 state of art学习经典游戏的原因规则简单，细思又很深入历史悠久，已经被研究了几百年对IQ测试有意义是现实世界的问题的缩影已经有很多RL案例，战胜了人类，例如2、游戏理论 game theory游戏的最优性对于石头剪刀布来说，最优策略，显然和对手agent策略相关，我们期望找到一种一致的策略策略，对所有对手都有效什么是第i个玩家的最优策略\(\pi\)最佳响应 best resp... 阅读全文

posted @ 2020-09-08 14:58 Tolshao 阅读(683) 评论(0) 推荐(0) 编辑

强化学习笔记11：工程师看强化学习

摘要：这里有很多形象的图，方便理解强化学习的公式知乎白话强化学习，有空了可以来看强化学习-11：Matlab RLAgent：由Policy 和 RL_Algorithm构成policy负责将observation映射为actionRL_Algorithm负责优化policyEnviroment：输入action输出reward、state内部执行状态转移、判断是否任务终止等关键定义Reward：根据... 阅读全文

posted @ 2020-09-08 14:57 Tolshao 阅读(673) 评论(0) 推荐(0) 编辑

2020年9月3日

RL实践1——动态规划值迭代

摘要： RL实践1——值迭代求解随机策略参考自叶强《强化学习》第三讲，方格世界—— 使用动态规划求解随机策略动态规划的使用条件时MDP已知，在简单游戏中，这个条件时显然成立的使用Value iteration的方法求解每个状态的价值函数，迭代收敛之后，对应最优策略生成。注意：动态规划和强化学习都用的价值函数，区别在于动态规划需要基于模型获取采取动作后下一时刻的状态，已进行评估，需要MDP模型已知；强化... 阅读全文

posted @ 2020-09-03 15:34 Tolshao 阅读(360) 评论(0) 推荐(0) 编辑

公告