MoonOut - 博客园

摘要：基于 14 年的 MFRL 论文，利用相邻 state-action 的空间相关性来加速学习，用 gaussian processes 建模 env dynamics（model-based）/ Q function（model-free），得到了两种跟 14 年 MFRL 很相似的算法。阅读全文

posted @ 2023-04-16 13:21 MoonOut 阅读(115) 评论(0) 推荐(0) 编辑

2023年4月15日

打 multi-fidelity RL 旗号，但是幼稚监督学习 + 迁移学习

摘要： RL episode 长度 = 1，先用 PPO 在 low-fidelity env 上学；维护一个 reward 的方差，如果方差足够小，就从 low-fidelity env 迁移到 high-fidelity env。阅读全文

posted @ 2023-04-15 19:51 MoonOut 阅读(24) 评论(0) 推荐(0) 编辑

Mathpix：屏幕截图 ➡ latex 公式，一键转换

摘要：安利一天能免费使用 10 次且好用的工具 Mathpix。阅读全文

posted @ 2023-04-15 18:59 MoonOut 阅读(62) 评论(0) 推荐(0) 编辑

在有限 computational budget 下，借助 low-fidelity 模型提高精度

摘要： motivation：一些预算用于训 low-fidelity model，剩下预算用于 Monte Carlo 模拟，以得到结果。数学证明：近似 + 递推或迭代或归纳法。总结：目前看来，对我的工作意义不大。阅读全文

posted @ 2023-04-15 18:56 MoonOut 阅读(118) 评论(0) 推荐(0) 编辑

2023年4月14日

大四下 | 本科毕业设计 · 中期答辩经验贴

摘要：记于柳絮飞扬的癸卯年丙辰月…… 阅读全文

posted @ 2023-04-14 16:11 MoonOut 阅读(618) 评论(1) 推荐(0) 编辑

2023年4月12日

LaTex · markdown | 如何写矩阵和大公式

摘要： markdown 写矩阵和大公式的代码存档。阅读全文

posted @ 2023-04-12 09:33 MoonOut 阅读(75) 评论(0) 推荐(0) 编辑

2023年4月6日

RL 的探索策略 | Exploration for RL

摘要： motivation：鼓励探索。主要方法：给 agent 不熟悉的 state 一个 intrinsic reward。关键问题：如何判断 agent 对某个 state 的熟悉程度。阅读全文

posted @ 2023-04-06 21:58 MoonOut 阅读(552) 评论(0) 推荐(0) 编辑

游记 | 20230402 · 牛首山踏春 · 南京眼夜景

摘要： “我们走到了南京眼，趴在桥上看长江、灯火与晚风，享受一些天真又忧愁的少年时光。” 阅读全文

posted @ 2023-04-06 16:02 MoonOut 阅读(146) 评论(0) 推荐(0) 编辑

2023年4月4日

cs 保研经验贴 | 综合面试题库

摘要： 2022 年暑假，海投夏令营时整理的材料。阅读全文

posted @ 2023-04-04 15:06 MoonOut 阅读(11795) 评论(0) 推荐(3) 编辑

cs 保研经验贴 | 英语口试

摘要： 2022 年暑假，海投夏令营时整理的材料。阅读全文

posted @ 2023-04-04 14:56 MoonOut 阅读(1571) 评论(0) 推荐(2) 编辑

cs 保研经验贴 | 数学试题 · 自动化所特供版

摘要： 2022 年暑假，海投夏令营时整理的材料。阅读全文

posted @ 2023-04-04 14:47 MoonOut 阅读(2193) 评论(0) 推荐(2) 编辑

2023年4月3日

Multi-Fidelity RL | 多精度 simulator 中的 RL：一篇 14 年 ICRA 的古早论文

摘要： Reinforcement learning with multi-fidelity simulators，是 14 年的 ICRA 会议的论文。师兄说是 robotics 顶会，但中稿率蛮高的。阅读全文

posted @ 2023-04-03 17:26 MoonOut 阅读(171) 评论(0) 推荐(1) 编辑

2023年3月27日

碎碎念 | 20230326 · 与 SEU & 南传跆协共进晚餐

摘要：火焰明亮绚烂如昙花一现，但我却是极夜里沐临北斗的赶路人，在星光的鼓舞下，还有更长的路要走。阅读全文

posted @ 2023-03-27 00:19 MoonOut 阅读(98) 评论(0) 推荐(0) 编辑

2023年3月6日

用线性二次模型建模大型数据中心，基于 MPC 进行冷却控制

摘要：啊…… 感觉它能 work 还是加了很多 tricks 的… 阅读全文

posted @ 2023-03-06 17:44 MoonOut 阅读(219) 评论(0) 推荐(0) 编辑

2023年3月5日

数据中心冷却的 safe-RL，基于对 action 的事后修正技术

摘要： motivation：减少 RL 试错过程中的 unsafe behavior。技术路线：先模仿学习，再在 on-line learning 时强行改可能 unsafe 的 action，即 post-hoc rectification。阅读全文

posted @ 2023-03-05 13:13 MoonOut 阅读(92) 评论(0) 推荐(0) 编辑

2023年3月4日

一个量子速读法（划掉）的存档

摘要：当你完全不想锻炼英语阅读能力，只想快速得知论文内容…… 阅读全文

posted @ 2023-03-04 12:32 MoonOut 阅读(22) 评论(0) 推荐(0) 编辑

2023年3月3日

RL 基础 | 如何搭建自定义 gym 环境

摘要：主要就是 __init__, step, reset 三个方法，① __init__ 要记得定义 state action space，② step 返回 (obs, reward, done, info)，③ reset 返回 obs。返回的 obs 要用 np.ndarray 表示。阅读全文

posted @ 2023-03-03 11:03 MoonOut 阅读(322) 评论(0) 推荐(0) 编辑

2023年3月2日

（已解决）vscode python 代码高亮异常 - 引入的包不显示

摘要：左下角“设置”→ 搜索 language → 把 python 的 language server 改成 pylance → 重装 pylance 阅读全文

posted @ 2023-03-02 21:52 MoonOut 阅读(8683) 评论(0) 推荐(1) 编辑

python · pytorch | NN 训练常用代码存档

摘要： ① pandas 读 csv，② 基于 pytorch 的模型搭建、训练、测试。阅读全文

posted @ 2023-03-02 15:49 MoonOut 阅读(54) 评论(1) 推荐(0) 编辑

2023年2月20日

（已解决）C·lash 核心崩溃“failed to c·lash core, logs are not available”

摘要：管理员打开 cmd，输入 netsh winsock reset，重启电脑就可以了！阅读全文

posted @ 2023-02-20 21:10 MoonOut 阅读(3751) 评论(0) 推荐(0) 编辑