摘要: 读读读 RILIR 链接:https://arxiv.org/pdf/2310.14274.pdf 本文主要是对 IRL 的改进。 首先,设计了一个提取关键信息的网络 \(\phi(o_t)\) 来克服原始 IRL 中 expert 数据所在环境和 learning 环境不一样的问题。 接着,再设计 阅读全文
posted @ 2024-04-16 20:49 SkyRainWind 阅读(7) 评论(0) 推荐(0) 编辑
摘要: 主要记录一下自己仔细学习 RL 时的感悟。记录一下防止遗忘 Q-learning 和 DQN 都是基于值函数的(如 \(V\) 和 \(Q\) 函数),而策略梯度(policy gradient)则是基于策略的。后者显式的训练一个策略,对这个策略使用梯度下降等方法。 actor-critic 本质上 阅读全文
posted @ 2024-03-14 16:35 SkyRainWind 阅读(17) 评论(0) 推荐(0) 编辑
摘要: 打完深圳站之后今年的比赛就结束了,是时候总结一下了。 先说成绩。我们,哈尔滨工业大学,月间天路。两金一银,其中 ICPC 西安站银牌(rk 57),南京站金牌(rk 20),CCPC 深圳站金牌(rk 6),巧合的是,这三站也是我们打的顺序。 组队大概是今年 7 月末的时候,卢宝原来的队伍因为一些原 阅读全文
posted @ 2023-11-16 14:33 SkyRainWind 阅读(126) 评论(0) 推荐(0) 编辑
摘要: 伪代码: 在 if done 的时候,在环境中已经跑了一个 trajectory 了,利用当前的 trajectory 和专家的 demo 求一下 reward(文章中用的是 optimal transport 的几种方法) 否则,就继续在 observation 的基础上利用 actor 学到的策 阅读全文
posted @ 2024-04-19 21:15 SkyRainWind 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 复现了很长很长时间……终于能跑出来了。记录一下有哪些需要注意的地方。 由于自己之前完全没有任何服务器跑代码的经验,于是过程比较的痛苦。。。 torch 安装 这 b 玩意捣鼓了半天。。主要就两个点 要选择不高于当前服务器支持的 cuda 版本的 torch。比如服务器 cuda=11.6,那我就不能 阅读全文
posted @ 2024-04-08 21:35 SkyRainWind 阅读(10) 评论(0) 推荐(0) 编辑
摘要: 由于去年打的不错(+运气比较好),能去两个 Final 打打旅游,最后都铜了,没铁也算能接受毕竟单论实力确实打不过其他学校的一二队。 EC-Final 时间地点:2024.1.12-1.14,上海 过去的有点久,可能有些记不太清楚的地方。 开场过了几分钟有人过 B,我们几个去看 B,想了一会胡了一个 阅读全文
posted @ 2024-04-01 21:30 SkyRainWind 阅读(60) 评论(0) 推荐(0) 编辑
摘要: 伫立在时间的十字路口,连接着过去和未来。学期伊始,是时候总结上学期、展望新学期了。 上个学期,是非常精彩的一个学期,我取得了不错的成绩,也为我的保研之路打下了坚实基础。 文化课方面,在期末月和平时常请假外出打比赛的情况下,我没有放松,而是努力拼搏,最后成绩也十分稳定,3 门理科课接近满分,马原虽然比 阅读全文
posted @ 2024-03-08 22:08 SkyRainWind 阅读(31) 评论(1) 推荐(0) 编辑
摘要: 之前提到过,强化学习中有 policy gradient 的方法,其实质是利用 MC 的方法对于当前的模型(\(\theta\) 或者 \(\pi\),可以认为是由状态到行为的映射)重复跑很多次,求出估计的“期望值”,最终目标是最大化他们的 reward(因此可以将 loss 设置成负的期望)。 这 阅读全文
posted @ 2024-03-04 22:06 SkyRainWind 阅读(7) 评论(0) 推荐(0) 编辑
摘要: 可能要写点轮子。。。先学学前端知识吧,记录一下。 遍历: for(let i of S){i...} for(let i in S){S[i]...} 数组增长: S = [] S.push(1) S.push([1, 2, 3]) S.pop() JS 是弱类型的语言。目前感觉到的特性有: 数组不 阅读全文
posted @ 2024-02-29 21:54 SkyRainWind 阅读(25) 评论(0) 推荐(0) 编辑
摘要: 不是很难做的作业,调调 epoch,改改权重就能过 medium,最后按照论文调一下可变的权重就能过 strong。 题目大意是说给定训练集是 10 种现实里的生物和他们的标签,希望对测试集中种类相同但是画风不同的生物进行分类。 采用 DaNN 的架构,feature extractor 用于 “提 阅读全文
posted @ 2024-02-23 00:37 SkyRainWind 阅读(18) 评论(0) 推荐(0) 编辑
摘要: 引入 给一张动物的图片,分辨是什么动物。这个问题可以用 CNN 解决(HW3)。核心是通过有标注(label)的图片进行学习。 而在下围棋时,如何落子是一个难以标注的问题,但是机器可以学到什么是好的,什么是不好的。这就是强化学习的适用场景。 结构 总的目标是想找一个 Actor(或称 policy) 阅读全文
posted @ 2024-02-22 14:44 SkyRainWind 阅读(14) 评论(0) 推荐(0) 编辑