论文速读记录 | 2024.12
(打算开设一个新栏目,记录速读时看到的文章,方便日后查阅(如果有需要的话)
目录
- DenseMatcher: Learning 3D Semantic Correspondence for Category-Level Manipulation from a Single Demo
- Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone
- Model-Driven Deep Neural Network for Enhancing Direction Finding with Commodity 5G gNodeB
- Entropy Regularized Task Representation Learning for Offline Meta-Reinforcement Learning
- Paired Open-Ended Trailblazer (POET): Endlessly Generating Increasingly Complex and Diverse Learning Environments and Their Solutions
- PLASTIC: Improving Input and Label Plasticity for Sample Efficient Reinforcement Learning
DenseMatcher: Learning 3D Semantic Correspondence for Category-Level Manipulation from a Single Demo
- arxiv:https://arxiv.org/abs/2412.05268
- 来源:茶园许华哲老师的新文章。
- 主要内容:
- 这篇文章的 task 好像是,将两个 3D 物体的 mesh 对齐。文章提出了一个带颜色的 mesh 的数据集,并提出了一种新的对齐方法。
- 对齐的动机:通过这种方式,机械臂可以学会操作相似的物体。
- 具体做法:为每个顶点(vertice)生成一个 512 维的 embedding。然后,根据某些特征,对所有 mesh 进行分割 / 聚类,把它们分为几个 semantic group。接着,根据 semantic group 之间的某些距离度量,设置 loss function 来进行优化。
- 没细看。
- 想学习一下他们组的方向,但是看不懂ww。感觉如果能听人讲讲,或许就看懂了。
Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone
- arxiv:https://arxiv.org/abs/2412.06685
- website:https://policyagnosticrl.github.io
- 来源:Chelsea Finn 的新文章。
- 主要内容:
- 这篇文章关注的 task 好像是 offline 2 online,即,通过模仿学习得到一个不错的 policy,然后希望通过 RL 来进一步改进它。然而,现在模仿学习通常使用 DT 或 diffusion 做,这两种策略形式并不适合直接用于 RL fine-tune。
- 文章提出了 Policy Agnostic RL(PA-RL),Agnostic 是“不可知论”的意思。无论 policy 的形式是什么,都可以使用 PA-RL 来改进策略。PA-RL 包括两步:第一步,学习现有 policy 的 critic(Q-learning);第二步,找到更优的 action,然后利用监督学习来更新 policy。
- 具体细节没有看。
- 感觉这篇文章可能比较工程,不知道发在什么会 / 期刊上。
Model-Driven Deep Neural Network for Enhancing Direction Finding with Commodity 5G gNodeB
- 来源:seu 尤肖虎老师组的新文章。
- 没看懂,然而图非常漂亮。
Entropy Regularized Task Representation Learning for Offline Meta-Reinforcement Learning
- arxiv:https://arxiv.org/abs/2412.14834
- GitHub:https://github.com/MohammadrezaNakhaei/ER-TRL
- 来源:同学推荐,认为这篇 offline meta RL 的文章非常有趣。
- 主要内容:
- 这篇文章关注的 task 是 offline meta RL:我们有一个包含多个 task 的 offline dataset,task 之间的具体差异表现为:
- ① 对于同一 transition
,奖励(reward)可能不同; - ② 对于同一动作 (s,a),转移到的下一个状态
的分布可能不同。
- ① 对于同一 transition
- 希望训练一个 task encoder
,它接收一个长度为 H 的轨迹片段 ,输出一个表示 task 类型的 embedding ,然后训一个 condition on task 的 policy 。 - 主要故事:task encoder
可能会耦合 behavior policy (即生成 offline dataset 的那些 policy)的信息,导致 inference 时,当 agent 遇到 OOD 的 transition 时,encoder 无法推断出正确的 task。 - 因此,我们希望最小化 encoder
和 behavior policy 之间的互信息,确保 encoder 能够正确推断 task,而不依赖于具体的行为策略。 - 如何最小化互信息:
- 公式 8,最小化互信息 = 最大化
的熵,因为 ,而 与 encoder 和 无关。 - 公式 9,
,这一推导可见附录 A。
- 公式 8,最小化互信息 = 最大化
- 如何通过 offline dataset 得到 behavior policy
:- 使用一个 GAN 来估计行为策略,其中 generator 用来生成以假乱真的 action, discriminator 用来区分真假 action。用 generator 作为
。
- 使用一个 GAN 来估计行为策略,其中 generator 用来生成以假乱真的 action, discriminator 用来区分真假 action。用 generator 作为
- 这篇文章关注的 task 是 offline meta RL:我们有一个包含多个 task 的 offline dataset,task 之间的具体差异表现为:
- 无端联想,如果 task 之间很不相关,是否仍然适合使用 meta RL?
Paired Open-Ended Trailblazer (POET): Endlessly Generating Increasingly Complex and Diverse Learning Environments and Their Solutions
- arxiv:https://arxiv.org/abs/1901.01753
- 来源:合作者推荐,认为这篇对抗学习的文章非常有趣。
- 主要内容:
- 这篇文章关注的 task 是,生成更加复杂的环境,并为这些环境生成对应的 policy。
- 主要算法(算法 2)分为三步:1. 生成一系列更复杂的环境,2. 为每个环境匹配一个现有策略库里 在这个环境下最好的策略 作为配对的策略,3. 为每个配对策略进行一步优化迭代。
PLASTIC: Improving Input and Label Plasticity for Sample Efficient Reinforcement Learning
- arxiv:https://arxiv.org/abs/2306.10711
- 来源:搜到的 random 文章。
- 主要内容:
- 理论上,off-policy RL 可以从任意 transition 里学习,但在实践上,最初学到 transition 往往限制了 agent 的性能。这种限制(即不可塑性)有两种表现方式:
- ① Input Plasticity 输入可塑性:当输入数据的分布
发生变化,agent 能否迅速适应。 - ② Label Plasticity 标签可塑性:当给定 observation 的 label
发生变化,agent 能否快速学到新值。 - 作者使用锐化感知最小化(SAM)优化器和层归一化(LN)来增强 loss function 的平滑度,用最后几层的周期性重新初始化(Reset)和级联 ReLU(CReLU)激活函数来增强梯度传播。
- 所提出的方法 PLASTIC,貌似就是这几种方法的组合。
本文作者:MoonOut
本文链接:https://www.cnblogs.com/moonout/p/18627106
版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步