摘要: ① 将 high-confidence 的预测 (σ0, σ1) 标上 pseudo-label;② 将 labeled segment pair 进行时序剪裁,得到更多数据增强的 labeled pair。 阅读全文
posted @ 2023-11-11 20:16 MoonOut 阅读(187) 评论(0) 推荐(1) 编辑
摘要: 写伪逆矩阵计算代码,是专业课作业 2333,挑了两个好实现的算法写一下。 阅读全文
posted @ 2023-11-11 12:01 MoonOut 阅读(162) 评论(0) 推荐(0) 编辑
摘要: reward model 对某 (s,a) 的不确定性,由一系列 ensemble reward models 的输出结果方差的度量,直接乘一个超参数,作为 intrinsic reward 的一部分。 阅读全文
posted @ 2023-11-10 17:43 MoonOut 阅读(252) 评论(0) 推荐(3) 编辑
摘要: ① 使用熵 intrinsic reward 的 agent pre-training,② 选择尽可能 informative 的 queries 去获取 preference,③ 使用更新后的 reward model 对 replay buffer 进行 relabel。 阅读全文
posted @ 2023-11-09 20:40 MoonOut 阅读(235) 评论(0) 推荐(0) 编辑
摘要: 把 OOD 的 Q 函数值拉低,ID 的 Q 函数值拉高,因此倾向于选择原来数据集里有的 ID 的 action。 阅读全文
posted @ 2023-11-07 15:12 MoonOut 阅读(497) 评论(0) 推荐(2) 编辑
摘要: sup inf ≤ inf sup,证明关键: inf_w f(w,z) 是 f(w0,z) 逐点下界,对于任意 w0。 阅读全文
posted @ 2023-11-07 10:51 MoonOut 阅读(92) 评论(1) 推荐(0) 编辑
摘要: 满秩分解的计算方法,居然意外的简单。 阅读全文
posted @ 2023-11-04 17:07 MoonOut 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 1. Policy Evaluation 会收敛,因为贝尔曼算子是压缩映射;2. Policy Improvement 有策略性能改进的保证。 阅读全文
posted @ 2023-11-02 10:44 MoonOut 阅读(72) 评论(0) 推荐(0) 编辑
摘要: Cholesky 分解是 LU 分解(三角分解)的特殊形式,n 阶实对称正定矩阵 A = LL^T,其中 L 为下三角;搬运外网的代码,非原创。 阅读全文
posted @ 2023-11-01 14:23 MoonOut 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 贝尔曼算子 BV = max[r(s,a) + γV(s')] 是压缩映射,因此 {V, BV, B²V, ...} 是柯西序列,会收敛到 V=BV 的不动点。 阅读全文
posted @ 2023-10-24 09:40 MoonOut 阅读(416) 评论(0) 推荐(0) 编辑
摘要: 代码存档:先写一个 python 的 ssh 连接,再在 ssh 连接里面连 SQL。 阅读全文
posted @ 2023-10-07 21:03 MoonOut 阅读(94) 评论(0) 推荐(0) 编辑
摘要: 在 typora 中使用 mermaid,实现简单的 markdown 画图。 阅读全文
posted @ 2023-10-07 20:53 MoonOut 阅读(253) 评论(0) 推荐(0) 编辑
摘要: 感谢学姐的口述讲授 🌹 (学姐貌似很厉害,发了很多 ccf-a) 阅读全文
posted @ 2023-09-07 21:10 MoonOut 阅读(63) 评论(0) 推荐(0) 编辑
摘要: MySQL 配置 + python 连接 SQL 的简洁教程(以及 SQL server 貌似不太好用) 阅读全文
posted @ 2023-08-22 18:41 MoonOut 阅读(40) 评论(0) 推荐(0) 编辑
摘要: 20230726 改革托福题型后,题目更少、考试更轻松了,但容错率也随之降低… 阅读全文
posted @ 2023-08-13 15:07 MoonOut 阅读(128) 评论(0) 推荐(0) 编辑
摘要: 1. 先判断题型,2. 跳过读题干 or 细读题干。如果细读题干,请务必认真读题干! 阅读全文
posted @ 2023-07-31 12:08 MoonOut 阅读(26) 评论(0) 推荐(0) 编辑
摘要: 当时背了好几篇范文,写作文时把这些 fancy 句子一通缝合,果然可以得高分🤣 阅读全文
posted @ 2023-06-24 12:12 MoonOut 阅读(21) 评论(0) 推荐(0) 编辑
摘要: 零零散散的经验,存下来方便查阅。 阅读全文
posted @ 2023-06-16 10:10 MoonOut 阅读(160) 评论(0) 推荐(0) 编辑
摘要: 还是很信服中医的,所以来存个档。 阅读全文
posted @ 2023-06-10 21:03 MoonOut 阅读(52) 评论(0) 推荐(0) 编辑
摘要: 时空图预测:构造 0 ~ t-1 的 t 个图,然后把 GNN 操作、时序预测操作一通叠加。diffusion:一种加噪声的训练方法。感谢善良的同学 🙏🏻 阅读全文
posted @ 2023-06-10 20:55 MoonOut 阅读(206) 评论(0) 推荐(0) 编辑
摘要: 在 2019 年某个微雪的冬日,在我们彼此相聚的稀少时光里,在雪花轻缓而静寂的飘落下:时间的流逝,能否再慢一点呢? 阅读全文
posted @ 2023-06-10 19:52 MoonOut 阅读(32) 评论(0) 推荐(0) 编辑
摘要: ① 用 ML 得到 PUE 模型,② 对各个控制变量做灵敏度分析,③ 试图这样减小 PUE:在腾讯改了一个水流量参数,果然获得一点能效提升。 阅读全文
posted @ 2023-06-10 19:38 MoonOut 阅读(28) 评论(0) 推荐(0) 编辑
摘要: 趁老师不注意,把试卷拍了照…… 阅读全文
posted @ 2023-06-10 19:23 MoonOut 阅读(34) 评论(0) 推荐(0) 编辑
摘要: 趁老师不注意,把试卷拍了照…… 阅读全文
posted @ 2023-06-10 19:18 MoonOut 阅读(20) 评论(0) 推荐(0) 编辑
摘要: 趁老师不注意,把试卷拍了照…… 阅读全文
posted @ 2023-06-10 19:15 MoonOut 阅读(37) 评论(0) 推荐(0) 编辑
摘要: 趁老师不注意,把试卷拍了照…… 阅读全文
posted @ 2023-06-10 19:11 MoonOut 阅读(15) 评论(0) 推荐(0) 编辑
摘要: 趁老师不注意,把试卷拍了照…… 阅读全文
posted @ 2023-06-10 19:07 MoonOut 阅读(12) 评论(0) 推荐(0) 编辑
摘要: 感谢善良的知乎博客🙏🏻 阅读全文
posted @ 2023-05-31 10:59 MoonOut 阅读(87) 评论(0) 推荐(0) 编辑
摘要: subplots 子图,scatter 散点图,plot 连点成线,color 与 fontsize。 阅读全文
posted @ 2023-05-26 10:55 MoonOut 阅读(71) 评论(0) 推荐(0) 编辑
摘要: 使用 python datetime 库,实现微秒级计时。 阅读全文
posted @ 2023-05-25 21:52 MoonOut 阅读(126) 评论(0) 推荐(0) 编辑
摘要: 先复制粘贴,在粘贴时点“选择性粘贴”,点选“转置”。 阅读全文
posted @ 2023-05-14 10:03 MoonOut 阅读(36) 评论(0) 推荐(0) 编辑
摘要: 基于 14 年的 MFRL 论文,利用相邻 state-action 的空间相关性来加速学习,用 gaussian processes 建模 env dynamics(model-based)/ Q function(model-free),得到了两种跟 14 年 MFRL 很相似的算法。 阅读全文
posted @ 2023-04-16 13:21 MoonOut 阅读(96) 评论(0) 推荐(0) 编辑
摘要: RL episode 长度 = 1,先用 PPO 在 low-fidelity env 上学;维护一个 reward 的方差,如果方差足够小,就从 low-fidelity env 迁移到 high-fidelity env。 阅读全文
posted @ 2023-04-15 19:51 MoonOut 阅读(13) 评论(0) 推荐(0) 编辑
摘要: 安利一天能免费使用 10 次且好用的工具 Mathpix。 阅读全文
posted @ 2023-04-15 18:59 MoonOut 阅读(59) 评论(0) 推荐(0) 编辑
摘要: motivation:一些预算用于训 low-fidelity model,剩下预算用于 Monte Carlo 模拟,以得到结果。数学证明:近似 + 递推或迭代或归纳法。总结:目前看来,对我的工作意义不大。 阅读全文
posted @ 2023-04-15 18:56 MoonOut 阅读(94) 评论(0) 推荐(0) 编辑
摘要: 记于柳絮飞扬的癸卯年丙辰月…… 阅读全文
posted @ 2023-04-14 16:11 MoonOut 阅读(575) 评论(1) 推荐(0) 编辑
摘要: markdown 写矩阵和大公式的代码存档。 阅读全文
posted @ 2023-04-12 09:33 MoonOut 阅读(49) 评论(0) 推荐(0) 编辑
摘要: motivation:鼓励探索。主要方法:给 agent 不熟悉的 state 一个 intrinsic reward。关键问题:如何判断 agent 对某个 state 的熟悉程度。 阅读全文
posted @ 2023-04-06 21:58 MoonOut 阅读(303) 评论(0) 推荐(0) 编辑
摘要: “我们走到了南京眼,趴在桥上看长江、灯火与晚风,享受一些天真又忧愁的少年时光。” 阅读全文
posted @ 2023-04-06 16:02 MoonOut 阅读(132) 评论(0) 推荐(0) 编辑
摘要: 2022 年暑假,海投夏令营时整理的材料。 阅读全文
posted @ 2023-04-04 15:06 MoonOut 阅读(6741) 评论(0) 推荐(1) 编辑