python · SQL | MySQL 配置与 python 连接数据库
摘要:
MySQL 配置 + python 连接 SQL 的简洁教程(以及 SQL server 貌似不太好用)
时空图预测的方法论,以及 diffusion model 基本概念
摘要:
时空图预测:构造 0 ~ t-1 的 t 个图,然后把 GNN 操作、时序预测操作一通叠加。diffusion:一种加噪声的训练方法。感谢善良的同学 🙏🏻
传说中 PUE 预测精度高达 0.005 的工作
摘要:
① 用 ML 得到 PUE 模型,② 对各个控制变量做灵敏度分析,③ 试图这样减小 PUE:在腾讯改了一个水流量参数,果然获得一点能效提升。
用 Gaussian Process 建模 state-action 空间相关性,加速 Multi-Fidelity RL
摘要:
基于 14 年的 MFRL 论文,利用相邻 state-action 的空间相关性来加速学习,用 gaussian processes 建模 env dynamics(model-based)/ Q function(model-free),得到了两种跟 14 年 MFRL 很相似的算法。
打 multi-fidelity RL 旗号,但是幼稚监督学习 + 迁移学习
摘要:
RL episode 长度 = 1,先用 PPO 在 low-fidelity env 上学;维护一个 reward 的方差,如果方差足够小,就从 low-fidelity env 迁移到 high-fidelity env。
在有限 computational budget 下,借助 low-fidelity 模型提高精度
摘要:
motivation:一些预算用于训 low-fidelity model,剩下预算用于 Monte Carlo 模拟,以得到结果。数学证明:近似 + 递推或迭代或归纳法。总结:目前看来,对我的工作意义不大。
RL 的探索策略 | Exploration for RL
摘要:
motivation:鼓励探索。主要方法:给 agent 不熟悉的 state 一个 intrinsic reward。关键问题:如何判断 agent 对某个 state 的熟悉程度。
Multi-Fidelity RL | 多精度 simulator 中的 RL:一篇 14 年 ICRA 的古早论文
摘要:
Reinforcement learning with multi-fidelity simulators,是 14 年的 ICRA 会议的论文。师兄说是 robotics 顶会,但中稿率蛮高的。
数据中心冷却的 safe-RL,基于对 action 的事后修正技术
摘要:
motivation:减少 RL 试错过程中的 unsafe behavior。技术路线:先模仿学习,再在 on-line learning 时强行改可能 unsafe 的 action,即 post-hoc rectification。
RL 基础 | 如何搭建自定义 gym 环境
摘要:
主要就是 __init__, step, reset 三个方法,① __init__ 要记得定义 state action space,② step 返回 (obs, reward, done, info),③ reset 返回 obs。返回的 obs 要用 np.ndarray 表示。
(已解决)vscode python 代码高亮异常 - 引入的包不显示
摘要:
左下角“设置”→ 搜索 language → 把 python 的 language server 改成 pylance → 重装 pylance
(已解决)C·lash 核心崩溃“failed to c·lash core, logs are not available”
摘要:
管理员打开 cmd,输入 netsh winsock reset,重启电脑就可以了!