论文速读记录 | 2024.12


(打算开设一个新栏目,记录速读时看到的文章,方便日后查阅(如果有需要的话)



DenseMatcher: Learning 3D Semantic Correspondence for Category-Level Manipulation from a Single Demo

  • arxiv:https://arxiv.org/abs/2412.05268
  • 来源:茶园许华哲老师的新文章。
  • 主要内容:
    • 这篇文章的 task 好像是,将两个 3D 物体的 mesh 对齐。文章提出了一个带颜色的 mesh 的数据集,并提出了一种新的对齐方法。
    • 对齐的动机:通过这种方式,机械臂可以学会操作相似的物体。
    • 具体做法:为每个顶点(vertice)生成一个 512 维的 embedding。然后,根据某些特征,对所有 mesh 进行分割 / 聚类,把它们分为几个 semantic group。接着,根据 semantic group 之间的某些距离度量,设置 loss function 来进行优化。
    • 没细看。
  • 想学习一下他们组的方向,但是看不懂ww。感觉如果能听人讲讲,或许就看懂了。

Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone

  • arxiv:https://arxiv.org/abs/2412.06685
  • website:https://policyagnosticrl.github.io
  • 来源:Chelsea Finn 的新文章。
  • 主要内容:
    • 这篇文章关注的 task 好像是 offline 2 online,即,通过模仿学习得到一个不错的 policy,然后希望通过 RL 来进一步改进它。然而,现在模仿学习通常使用 DT 或 diffusion 做,这两种策略形式并不适合直接用于 RL fine-tune。
    • 文章提出了 Policy Agnostic RL(PA-RL),Agnostic 是“不可知论”的意思。无论 policy 的形式是什么,都可以使用 PA-RL 来改进策略。PA-RL 包括两步:第一步,学习现有 policy 的 critic(Q-learning);第二步,找到更优的 action,然后利用监督学习来更新 policy。
    • 具体细节没有看。
  • 感觉这篇文章可能比较工程,不知道发在什么会 / 期刊上。

Model-Driven Deep Neural Network for Enhancing Direction Finding with Commodity 5G gNodeB

  • 来源:seu 尤肖虎老师组的新文章。
  • 没看懂,然而图非常漂亮。

Entropy Regularized Task Representation Learning for Offline Meta-Reinforcement Learning

  • arxiv:https://arxiv.org/abs/2412.14834
  • GitHub:https://github.com/MohammadrezaNakhaei/ER-TRL
  • 来源:同学推荐,认为这篇 offline meta RL 的文章非常有趣。
  • 主要内容:
    • 这篇文章关注的 task 是 offline meta RL:我们有一个包含多个 task 的 offline dataset,task 之间的具体差异表现为:
      • ① 对于同一 transition (s,a,s),奖励(reward)可能不同;
      • ② 对于同一动作 (s,a),转移到的下一个状态 s 的分布可能不同。
    • 希望训练一个 task encoder e,它接收一个长度为 H 的轨迹片段 (s,a,r,s)H ,输出一个表示 task 类型的 embedding z,然后训一个 condition on task 的 policy a=π(s|z)
    • 主要故事:task encoder e 可能会耦合 behavior policy πβ(即生成 offline dataset 的那些 policy)的信息,导致 inference 时,当 agent 遇到 OOD 的 transition 时,encoder 无法推断出正确的 task。
    • 因此,我们希望最小化 encoder e 和 behavior policy πβ 之间的互信息,确保 encoder 能够正确推断 task,而不依赖于具体的行为策略。
    • 如何最小化互信息:
      • 公式 8,最小化互信息 = 最大化 H(πβ|p(z)) 的熵,因为 I(zi,πβi)=H(πβi)H(πβi|p(zi)) ,而 H(πβi) 与 encoder 和 z 无关。
      • 公式 9,H(πβ|p(z))H[πβ(a|s,zi)],这一推导可见附录 A。
    • 如何通过 offline dataset 得到 behavior policy πβ
      • 使用一个 GAN 来估计行为策略,其中 generator 用来生成以假乱真的 action, discriminator 用来区分真假 action。用 generator 作为 πβ
  • 无端联想,如果 task 之间很不相关,是否仍然适合使用 meta RL?

Paired Open-Ended Trailblazer (POET): Endlessly Generating Increasingly Complex and Diverse Learning Environments and Their Solutions

  • arxiv:https://arxiv.org/abs/1901.01753
  • 来源:合作者推荐,认为这篇对抗学习的文章非常有趣。
  • 主要内容:
    • 这篇文章关注的 task 是,生成更加复杂的环境,并为这些环境生成对应的 policy。
    • 主要算法(算法 2)分为三步:1. 生成一系列更复杂的环境,2. 为每个环境匹配一个现有策略库里 在这个环境下最好的策略 作为配对的策略,3. 为每个配对策略进行一步优化迭代。

PLASTIC: Improving Input and Label Plasticity for Sample Efficient Reinforcement Learning

  • arxiv:https://arxiv.org/abs/2306.10711
  • 来源:搜到的 random 文章。
  • 主要内容:
    • 理论上,off-policy RL 可以从任意 transition 里学习,但在实践上,最初学到 transition 往往限制了 agent 的性能。这种限制(即不可塑性)有两种表现方式:
    • ① Input Plasticity 输入可塑性:当输入数据的分布 p(x) 发生变化,agent 能否迅速适应。
    • ② Label Plasticity 标签可塑性:当给定 observation 的 label p(y|x) 发生变化,agent 能否快速学到新值。
    • 作者使用锐化感知最小化(SAM)优化器和层归一化(LN)来增强 loss function 的平滑度,用最后几层的周期性重新初始化(Reset)和级联 ReLU(CReLU)激活函数来增强梯度传播。
    • 所提出的方法 PLASTIC,貌似就是这几种方法的组合。


本文作者:MoonOut

本文链接:https://www.cnblogs.com/moonout/p/18627106

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   MoonOut  阅读(71)  评论(1编辑  收藏  举报
点击右上角即可分享
微信分享提示
评论
收藏
关注
推荐
深色
回顶
收起
  1. 1 Sibelius: Violin Concerto in D Minor, Op. 47:III. Allegro, ma non tanto Jascha Heifetz / Chicago Symphony Orchestra
Sibelius: Violin Concerto in D Minor, Op. 47:III. Allegro, ma non tanto - Jascha Heifetz / Chicago Symphony Orchestra
00:00 / 00:00
An audio error has occurred.