SkyRainWind

[置顶] IL 相关读论文记录

摘要：读读读 RILIR 链接：https://arxiv.org/pdf/2310.14274.pdf 本文主要是对 IRL 的改进。首先，设计了一个提取关键信息的网络 \(\phi(o_t)\) 来克服原始 IRL 中 expert 数据所在环境和 learning 环境不一样的问题。接着，再设计阅读全文

posted @ 2024-04-16 20:49 SkyRainWind 阅读(7) 评论(0) 推荐(0) 编辑

[置顶] 再探强化学习

摘要：主要记录一下自己仔细学习 RL 时的感悟。记录一下防止遗忘 Q-learning 和 DQN 都是基于值函数的（如 \(V\) 和 \(Q\) 函数），而策略梯度（policy gradient）则是基于策略的。后者显式的训练一个策略，对这个策略使用梯度下降等方法。 actor-critic 本质上阅读全文

posted @ 2024-03-14 16:35 SkyRainWind 阅读(17) 评论(0) 推荐(0) 编辑

[置顶] 赛季总结

摘要：打完深圳站之后今年的比赛就结束了，是时候总结一下了。先说成绩。我们，哈尔滨工业大学，月间天路。两金一银，其中 ICPC 西安站银牌（rk 57），南京站金牌（rk 20），CCPC 深圳站金牌（rk 6），巧合的是，这三站也是我们打的顺序。组队大概是今年 7 月末的时候，卢宝原来的队伍因为一些原阅读全文

posted @ 2023-11-16 14:33 SkyRainWind 阅读(126) 评论(0) 推荐(0) 编辑

2024年4月19日

RILIR 复现 & 一些 idea

摘要：伪代码：在 if done 的时候，在环境中已经跑了一个 trajectory 了，利用当前的 trajectory 和专家的 demo 求一下 reward（文章中用的是 optimal transport 的几种方法）否则，就继续在 observation 的基础上利用 actor 学到的策阅读全文

posted @ 2024-04-19 21:15 SkyRainWind 阅读(3) 评论(0) 推荐(0) 编辑

2024年4月8日

ROT 复现踩坑记录

摘要：复现了很长很长时间……终于能跑出来了。记录一下有哪些需要注意的地方。由于自己之前完全没有任何服务器跑代码的经验，于是过程比较的痛苦。。。 torch 安装这 b 玩意捣鼓了半天。。主要就两个点要选择不高于当前服务器支持的 cuda 版本的 torch。比如服务器 cuda=11.6，那我就不能阅读全文

posted @ 2024-04-08 21:35 SkyRainWind 阅读(10) 评论(0) 推荐(0) 编辑

2024年4月1日

EC-Final 2023 & CCPC Final 2023 游记

摘要：由于去年打的不错（+运气比较好），能去两个 Final 打打旅游，最后都铜了，没铁也算能接受毕竟单论实力确实打不过其他学校的一二队。 EC-Final 时间地点：2024.1.12-1.14，上海过去的有点久，可能有些记不太清楚的地方。开场过了几分钟有人过 B，我们几个去看 B，想了一会胡了一个阅读全文

posted @ 2024-04-01 21:30 SkyRainWind 阅读(60) 评论(0) 推荐(0) 编辑

2024年3月8日

学期总结及对下学期的展望

摘要：伫立在时间的十字路口，连接着过去和未来。学期伊始，是时候总结上学期、展望新学期了。上个学期，是非常精彩的一个学期，我取得了不错的成绩，也为我的保研之路打下了坚实基础。文化课方面，在期末月和平时常请假外出打比赛的情况下，我没有放松，而是努力拼搏，最后成绩也十分稳定，3 门理科课接近满分，马原虽然比阅读全文

posted @ 2024-03-08 22:08 SkyRainWind 阅读(31) 评论(1) 推荐(0) 编辑

2024年3月4日

李宏毅《机器学习》总结 - Q-learning（待填）

摘要：之前提到过，强化学习中有 policy gradient 的方法，其实质是利用 MC 的方法对于当前的模型（\(\theta\) 或者 \(\pi\)，可以认为是由状态到行为的映射）重复跑很多次，求出估计的“期望值”，最终目标是最大化他们的 reward（因此可以将 loss 设置成负的期望）。这阅读全文

posted @ 2024-03-04 22:06 SkyRainWind 阅读(7) 评论(0) 推荐(0) 编辑

2024年2月29日

JS/Vue 学习小记（已弃坑）

摘要：可能要写点轮子。。。先学学前端知识吧，记录一下。遍历： for(let i of S){i...} for(let i in S){S[i]...} 数组增长： S = [] S.push(1) S.push([1, 2, 3]) S.pop() JS 是弱类型的语言。目前感觉到的特性有：数组不阅读全文

posted @ 2024-02-29 21:54 SkyRainWind 阅读(25) 评论(0) 推荐(0) 编辑

2024年2月23日

李宏毅《机器学习》总结 - 2022 HW11（Domain Adaptation） Strong Baseline

摘要：不是很难做的作业，调调 epoch，改改权重就能过 medium，最后按照论文调一下可变的权重就能过 strong。题目大意是说给定训练集是 10 种现实里的生物和他们的标签，希望对测试集中种类相同但是画风不同的生物进行分类。采用 DaNN 的架构，feature extractor 用于 “提阅读全文

posted @ 2024-02-23 00:37 SkyRainWind 阅读(18) 评论(0) 推荐(0) 编辑

2024年2月22日

李宏毅《机器学习》总结 - RL

摘要：引入给一张动物的图片，分辨是什么动物。这个问题可以用 CNN 解决（HW3）。核心是通过有标注（label）的图片进行学习。而在下围棋时，如何落子是一个难以标注的问题，但是机器可以学到什么是好的，什么是不好的。这就是强化学习的适用场景。结构总的目标是想找一个 Actor（或称 policy）阅读全文

posted @ 2024-02-22 14:44 SkyRainWind 阅读(14) 评论(0) 推荐(0) 编辑

空を見ろ。空を見続けろ。答えはそこにある。

公告