1 2 3 4 5 ··· 16 下一页
摘要: 主要记录一下自己仔细学习 RL 时的感悟。记录一下防止遗忘 Q-learning 和 DQN 都是基于值函数的(如 \(V\) 和 \(Q\) 函数),而策略梯度(policy gradient)则是基于策略的。后者显式的训练一个策略,对这个策略使用梯度下降等方法。 actor-critic 本质上 阅读全文
posted @ 2024-03-14 16:35 SkyRainWind 阅读(23) 评论(0) 推荐(0) 编辑
摘要: 打完深圳站之后今年的比赛就结束了,是时候总结一下了。 先说成绩。我们,哈尔滨工业大学,月间天路。两金一银,其中 ICPC 西安站银牌(rk 57),南京站金牌(rk 20),CCPC 深圳站金牌(rk 6),巧合的是,这三站也是我们打的顺序。 组队大概是今年 7 月末的时候,卢宝原来的队伍因为一些原 阅读全文
posted @ 2023-11-16 14:33 SkyRainWind 阅读(151) 评论(0) 推荐(1) 编辑
摘要: solution via github Clash 下默认的端口一般是 7890: 因此只需要在命令行中输入 7890 端口对应的指令即可 git config --global https.proxy http://127.0.0.1:7890 git config --global https. 阅读全文
posted @ 2024-07-19 15:10 SkyRainWind 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 达成成就:0 dirt && 队史第一次一血 && (可能是生涯唯一一次)打进 rk3 之内。 继续和月间天路的老队友们组了个队,队伍名是上学期打完南京站的时候(由于暴雪航班取消)坐绿皮火车回去的时候看见遍地积雪的时候酝酿的名字,后来和队友们商讨选出来的“雪原漫舞”。 Day 0 前一天的热身赛我由 阅读全文
posted @ 2024-05-12 23:50 SkyRainWind 阅读(183) 评论(1) 推荐(0) 编辑
摘要: 伪代码: 在 if done 的时候,在环境中已经跑了一个 trajectory 了,利用当前的 trajectory 和专家的 demo 求一下 reward(文章中用的是 optimal transport 的几种方法) 否则,就继续在 observation 的基础上利用 actor 学到的策 阅读全文
posted @ 2024-04-19 21:15 SkyRainWind 阅读(7) 评论(0) 推荐(0) 编辑
摘要: 读读读 RILIR 链接:https://arxiv.org/pdf/2310.14274.pdf 本文主要是对 IRL 的改进。 首先,设计了一个提取关键信息的网络 \(\phi(o_t)\) 来克服原始 IRL 中 expert 数据所在环境和 learning 环境不一样的问题。 接着,再设计 阅读全文
posted @ 2024-04-16 20:49 SkyRainWind 阅读(17) 评论(0) 推荐(0) 编辑
摘要: 复现了很长很长时间……终于能跑出来了。记录一下有哪些需要注意的地方。 由于自己之前完全没有任何服务器跑代码的经验,于是过程比较的痛苦。。。 torch 安装 这 b 玩意捣鼓了半天。。主要就两个点 要选择不高于当前服务器支持的 cuda 版本的 torch。比如服务器 cuda=11.6,那我就不能 阅读全文
posted @ 2024-04-08 21:35 SkyRainWind 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 由于去年打的不错(+运气比较好),能去两个 Final 打打旅游,最后都铜了,没铁也算能接受毕竟单论实力确实打不过其他学校的一二队。 EC-Final 时间地点:2024.1.12-1.14,上海 过去的有点久,可能有些记不太清楚的地方。 开场过了几分钟有人过 B,我们几个去看 B,想了一会胡了一个 阅读全文
posted @ 2024-04-01 21:30 SkyRainWind 阅读(90) 评论(0) 推荐(0) 编辑
摘要: 伫立在时间的十字路口,连接着过去和未来。学期伊始,是时候总结上学期、展望新学期了。 上个学期,是非常精彩的一个学期,我取得了不错的成绩,也为我的保研之路打下了坚实基础。 文化课方面,在期末月和平时常请假外出打比赛的情况下,我没有放松,而是努力拼搏,最后成绩也十分稳定,3 门理科课接近满分,马原虽然比 阅读全文
posted @ 2024-03-08 22:08 SkyRainWind 阅读(64) 评论(1) 推荐(0) 编辑
摘要: 之前提到过,强化学习中有 policy gradient 的方法,其实质是利用 MC 的方法对于当前的模型(\(\theta\) 或者 \(\pi\),可以认为是由状态到行为的映射)重复跑很多次,求出估计的“期望值”,最终目标是最大化他们的 reward(因此可以将 loss 设置成负的期望)。 这 阅读全文
posted @ 2024-03-04 22:06 SkyRainWind 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 可能要写点轮子。。。先学学前端知识吧,记录一下。 遍历: for(let i of S){i...} for(let i in S){S[i]...} 数组增长: S = [] S.push(1) S.push([1, 2, 3]) S.pop() JS 是弱类型的语言。目前感觉到的特性有: 数组不 阅读全文
posted @ 2024-02-29 21:54 SkyRainWind 阅读(33) 评论(0) 推荐(0) 编辑
1 2 3 4 5 ··· 16 下一页