摘要:
主要记录一下自己仔细学习 RL 时的感悟。记录一下防止遗忘 Q-learning 和 DQN 都是基于值函数的(如 \(V\) 和 \(Q\) 函数),而策略梯度(policy gradient)则是基于策略的。后者显式的训练一个策略,对这个策略使用梯度下降等方法。 actor-critic 本质上 阅读全文
摘要:
打完深圳站之后今年的比赛就结束了,是时候总结一下了。 先说成绩。我们,哈尔滨工业大学,月间天路。两金一银,其中 ICPC 西安站银牌(rk 57),南京站金牌(rk 20),CCPC 深圳站金牌(rk 6),巧合的是,这三站也是我们打的顺序。 组队大概是今年 7 月末的时候,卢宝原来的队伍因为一些原 阅读全文
摘要:
solution via github Clash 下默认的端口一般是 7890: 因此只需要在命令行中输入 7890 端口对应的指令即可 git config --global https.proxy http://127.0.0.1:7890 git config --global https. 阅读全文
摘要:
前排说明:后面的论文都放在 git 上了,这篇文章就坑掉了 7.8 SAM-G 待填 7.9 MAE(Masked Autoencoders Are Scalable Vision Learners) 来源:CVPR 2022 在视觉领域应用 auto encoder 的比较早的工作了,是自监督学习 阅读全文
摘要:
达成成就:0 dirt && 队史第一次一血 && (可能是生涯唯一一次)打进 rk3 之内。 继续和月间天路的老队友们组了个队,队伍名是上学期打完南京站的时候(由于暴雪航班取消)坐绿皮火车回去的时候看见遍地积雪的时候酝酿的名字,后来和队友们商讨选出来的“雪原漫舞”。 Day 0 前一天的热身赛我由 阅读全文
摘要:
伪代码: 在 if done 的时候,在环境中已经跑了一个 trajectory 了,利用当前的 trajectory 和专家的 demo 求一下 reward(文章中用的是 optimal transport 的几种方法) 否则,就继续在 observation 的基础上利用 actor 学到的策 阅读全文
摘要:
读读读 RILIR 链接:https://arxiv.org/pdf/2310.14274.pdf 本文主要是对 IRL 的改进。 首先,设计了一个提取关键信息的网络 \(\phi(o_t)\) 来克服原始 IRL 中 expert 数据所在环境和 learning 环境不一样的问题。 接着,再设计 阅读全文
摘要:
复现了很长很长时间……终于能跑出来了。记录一下有哪些需要注意的地方。 由于自己之前完全没有任何服务器跑代码的经验,于是过程比较的痛苦。。。 torch 安装 这 b 玩意捣鼓了半天。。主要就两个点 要选择不高于当前服务器支持的 cuda 版本的 torch。比如服务器 cuda=11.6,那我就不能 阅读全文
摘要:
由于去年打的不错(+运气比较好),能去两个 Final 打打旅游,最后都铜了,没铁也算能接受毕竟单论实力确实打不过其他学校的一二队。 EC-Final 时间地点:2024.1.12-1.14,上海 过去的有点久,可能有些记不太清楚的地方。 开场过了几分钟有人过 B,我们几个去看 B,想了一会胡了一个 阅读全文
摘要:
伫立在时间的十字路口,连接着过去和未来。学期伊始,是时候总结上学期、展望新学期了。 上个学期,是非常精彩的一个学期,我取得了不错的成绩,也为我的保研之路打下了坚实基础。 文化课方面,在期末月和平时常请假外出打比赛的情况下,我没有放松,而是努力拼搏,最后成绩也十分稳定,3 门理科课接近满分,马原虽然比 阅读全文