IL 相关读论文记录
读读读
RILIR
链接:https://arxiv.org/pdf/2310.14274.pdf
本文主要是对 IRL 的改进。
首先,设计了一个提取关键信息的网络 来克服原始 IRL 中 expert 数据所在环境和 learning 环境不一样的问题。
接着,再设计了一个网络 来预测相邻两个状态之间所进行的 action。这样,在计算 loss 值进行反向传播的时候,除了 DQN 中基本的一项(实际的 值和通过 TD 得到的预测值之间的 MSE)之外,还加上了由于当前 状态下 learning action 和 expert action 不同所造成的 loss。
最后,考虑了 reward 该如何产生。经典的做法和 GAN 类似设计了一个 discriminator 来分辨是 expert 数据还是自己产生的,拿相似程度当做 reward。本文中同时从整体的 trajectory 维度和局部 action 维度来制定 reward。trajectory 维度利用 Wasserstein 距离求出 ,而 action 维度通过训练 discriminator,利用和 GAIL 相似的方法求出 。合起来就可以用来作为 reward 训练 Q-network 了。
PIE-G
提出了一种基于 pre-trained image encoder 大模型的强化学习方法,用于解决环境变化的情况。
将 resnet 的网络接入 encoder 中并 frozen,其余和正常 RL 基本一样。本文中选用的是 DDPG。也是类似于 actor-critic,critic 作为 Q 函数求出 ,actor 作为策略返回一个动作的分布。在 DDPG 中,每次有两个 Q,分别为 ,取 min 更新。
ROT
提出了一种 IRL 的方法。
-
BC 预处理一下得到预训练模型(这个模型读入state输出action),用 MSE,体现在代码中就是写入到 weights 中
-
模型训练时首先考虑让 critic 的 Q 函数值最大,而且不能比预训练出的 Q 更差,使用 adaptive 的函数进行调参。
-
生成 reward (应该)使用的是和 expert 进行求 sinkhorn distance
在 Related work 中还梳理了一下 IL 和 OT:
IL 主要分为 BC 和 IRL,IRL 又可以分为基于对抗学习(adversarial)和状态匹配(state-matching)的。前者代表为 GAIL(以及一堆,见论文引用)。后者有基于 optimal transport,也有像 RILIR 一样 element-wise 和 trajectory level 结合的。
OT:主要有 sinkhorn、Wasserstein 等。用 sinkhorn 比较多。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 记一次.NET内存居高不下排查解决与启示
2023-04-16 CF1816F Xor Counting - dp - 分治 -