可微分Top-K 方法

 论文:Differentiable Patch Selection for Image Recognition

1.研究动机

  (1)神经网络需要大量内存和计算来处理高分辨率图像,即使只有一小部分图像实际上对当前任务有用

  我们提出了一种基于可微分 Top-K 运算符的方法来选择输入中最相关的部分,以高效处理高分辨率图像。

  (2)确定图像的哪些部分要保留、哪些部分要丢弃通常并非易事,而且高度依赖于任务。

  在某些应用中,解决方案可能很简单,只需截取图像的中心部分即可,但在大多数情况下,需要先检测相关区域。(例如,自动驾驶汽车环境中,可以忽略天空,但应正确识别视线内的所有交通标志,不得忽略。)

2.问题表述

  如下:给定一个大小相同的图像块的规则网格,确定每个图像块是处理还是丢弃它。然而,这个决定是离散的,不适合端到端学习。

  将图像块选择公式化为一个排名问题,其中每个图像块的相关性分数由一个小型 ConvNet 预测,并选择得分最高的 K 个图像块进行下游处理。

  当图像中的大多数图像块与目标无关时,方法最有效。

3.相关工作

  (1)区域提议方法(Region proposal methods):从图像中提取感兴趣的区域。例如,两阶段物体检测方法使用区域提议网络 [35] 或手工启发式 [38, 15] 选择感兴趣的区域。选定的区域随后由模型的单独阶段进行处理。这些方法使用不可微分的 RoI-Pooling [15] 或可微分的 RoI-Align [16]。此类架构需要边界框监督来训练大规模物体检测模型。

  (2)软注意力:为了关注图像的特定部分,通过生成注意力掩码来遮挡部分输入 [45],有助于模型关注相关特征 [37、50、42、26],变得更具可解释性 [26],或包含外部数据(如图像标题 [46、2]),但模型通常仍会在固定的输入分辨率上处理整个图像。因此,不会带来任何效率提升。另一种方法 [8] 是并行处理几种图像分辨率,并使用注意力机制从中挑选特征。 也可以使用临时损失来提取有意义的图像块。

4.网络结构

  模型由评分网络 sθ、图像块选择模块 p、特征网络fΦ和聚合网络 aφ 组成。

  可微分的 Top-K 层使用 sθ输出的分数来提取可以由任意下游网络处理的图像块(patches)。整个模型是端到端训练的,没有任何临时损失来训练选择模块。

 

posted @   太一吾鱼水  阅读(25)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· Vue3状态管理终极指南:Pinia保姆级教程
历史上的今天:
2017-01-21 LaTeX使用学习
2016-01-21 [Linux]gdb调试
点击右上角即可分享
微信分享提示