【神经网络架构】Deep High-Resolution Representation Learning for Visual Recognition 论文翻译

原始题目 Deep High-Resolution Representation Learning for Visual Recognition
中文名称 面向视觉识别的深度高分辨率表示学习
发表时间 2019年8月20日
平台 TPAMI
来源 中国北京微软研究院
文章链接 https://arxiv.org/pdf/1908.07919.pdf
开源代码 https://github.com/HRNet

摘要

高分辨率表示 对于位置敏感视觉问题(如人体姿态估计、语义分割和目标检测)至关重要。现有的最先进的框架首先通过串联 高到低分辨率卷积 形成的子网络(例如ResNet, VGGNet),将输入图像编码为低分辨率表示,然后从编码的低分辨率表示中恢复高分辨率表示。相反,我们提出的网络,称为 High-Resolution Network (HRNet),在整个过程中保持高分辨率表示。它有两个关键特征:

  • (i) **并行连接高分辨率到低分辨率的卷积流; **

  • (ii) 在不同分辨率之间反复交换信息。 这样做的好处是,最终的表示 在语义上更丰富,在空间上更精确。我们展示了所提出的 HRNet 在广泛应用中的优越性,包括人体姿势估计,语义分割和物体检测,这表明 HRNet 是计算机视觉问题的强大 backbone。

Index Terms — HRNet,高分辨率表示,低分辨率表示,人体姿态估计,语义分割,目标检测。

8 结论

本文提出一种用于视觉识别问题的高分辨率网络。与现有的 低分辨率分类网络 和 高分辨率表示学习网络 相比,有三个基本区别:

  • (i) 并行连接高分辨率和低分辨率卷积,而不是串联;
  • (ii) 在整个过程中保持高分辨率,而不是从低分辨率恢复高分辨率;
  • (iii) 反复融合多分辨率表示,呈现具有强位置敏感性的丰富 高分辨率表示。

在广泛的视觉识别问题上的优越结果表明,所提出的 HRNet 是计算机视觉问题的一个更强大的 backbone 。我们的研究还鼓励更多的研究工作,直接为特定的视觉问题设计网络架构,而不是扩展、补救或修复从低分辨率网络(如ResNet或VGGNet)中学习的表示。

讨论

这里可能存在一个误解: HRNet 的内存成本随着分辨率的提高而增加。事实上,HRNet 在人体姿态估计、语义分割和目标检测这三个应用中的内存成本都与目前最先进的技术相当,只是目标检测中的训练内存成本略大。

此外,我们总结了在 PyTorch 1.0 平台上的运行时成本比较。HRNet 的训练和推理时间成本与之前的最新技术相当,除了

  • (1) 用于分割的 HRNet 的推理时间要小得多,
  • (2) 用于姿态估计的 HRNet 的训练时间稍长,但在支持静态图推理的 MXNet 1.5.1 平台上的成本与 SimpleBaseline 类似。

我们要强调的是,对于语义分割,推理成本明显小于 PSPNet 和 DeepLabv3 。表13 总结了内存和时间开销的比较。

未来及后续工作

我们将研究 HRNet 与其他技术的结合,用于语义分割和实例分割。目前,通过将 HRNet 与 object-contextual representation (OCR) 方案[170]\(^6\)(object context[59],[171] 的一种变体)相结合,我们得到了结果(mIoU),如表 3 4 5 6 所示。我们将通过进一步提高表示的分辨率来进行研究,例如,提高到 \(\frac{1}{2}\) 甚至全分辨率。

  1. 我们根据经验观察到 HRNet 结合 ASPP[20] 或 PPM [181]在Cityscape 上没有获得性能提升,但在 PASCAL-Context 和 LIP 上略有提升。

HRNet 的应用不仅限于我们所做的上述工作,还适用于其他位置敏感的视觉应用,如 面部关键点检测\(^7\)、超分辨率、光流估计、深度估计等。已经有后续工作,如图像风格化[83]、修复[50]、图像增强[62]、图像去雾[1]、时间姿态估计(temporal pose estimation)[6]、无人机目标检测[190]。

据[26]报道,在单模型情况下,略微修改的 HRNet 结合 ASPP 取得了最佳的 Mapillary 全景分割性能。在 ICCV 2019 的 COCO + Mapillary 联合识别挑战赛研讨会上,COCO DensePose 挑战赛获胜者和几乎所有 COCO 关键点检测挑战赛参与者都采用了 HRNet。OpenImage 实例分割挑战赛冠军(ICCV 2019)也使用了 HRNet。

1 引言

深度卷积神经网络(DCNNs)在许多计算机视觉任务中取得了最先进的成果,如图像分类、目标检测、语义分割、人体姿态估计等。其优势在于,DCNNs 能够学习比传统手工构造的表示更丰富的表示。

最近开发的大多数分类网络,包括 AlexNet [77], VGGNet [126], GoogleNet [133], ResNet[54]等,都遵循 LeNet-5[81] 的设计规则。规则如 图1 (a) 所示: 逐渐减小特征图的空间大小,将从高分辨率到低分辨率的卷积串联起来,得到低分辨率的表示,进一步进行分类处理。

image

图1。从低分辨率恢复高分辨率的结构。(a)低分辨率表示学习子网络(如VGGNet [126], ResNet[54]),通过串联高低卷积形成。(b)高分辨率表示恢复子网络,通过串联低到高卷积形成。代表性的例子包括 SegNet [3], DeconvNet [107], U-Net[119]和 Hourglass [105], encoder-decoder[112]和 SimpleBaseline [152]。

高分辨率表示对于位置敏感的任务是需要的,如语义分割、人体姿态估计和目标检测。之前最先进的方法采用高分辨率恢复过程,从分类或类分类网络输出的低分辨率表示中提高表示分辨率,如Hourglass[105]、SegNet[3]、DeconvNet[107]、U-Net[119]、SimpleBaseline[152]和 encoder-decoder [112]。此外,膨胀( dilated)卷积用于删除一些下采样层,从而产生 中分辨率表示 [19],[181]。

本文提出一种新的架构,即High-Resolution Net (HRNet), 能够在整个过程中保持高分辨率表示。我们从一个高分辨率的卷积流开始,逐步添加高分辨率到低分辨率的卷积流,并 并行连接 多分辨率流。结果网络由 图2 所示的 几个(本文中为4个)阶段 组成,第 n 个阶段包含n个流,对应 n 个分辨率。通过在 并行流 上一遍又一遍地交换信息来进行重复的多分辨率融合。

image

图2 所示。高分辨率网络的一个例子。只说明了主体,而茎 (two stride-2 3 × 3 convolutions) 不包括在内。有四个阶段。第一阶段由高分辨率卷积组成。第二(第三,第四)阶段重复两分辨率(三分辨率,四分辨率)块。详情见第3节。

从 HRNet 学习到的高分辨率表示不仅语义强,而且空间精确。这来自两个方面。

  • (i) 该方法并行连接高到低分辨率卷积流,而不是串联。所提出方法能够保持高分辨率,而不是从低分辨率中恢复高分辨率,因此学习到的表示在空间上可能更精确。
  • (ii) 大多数现有的融合方案聚合了通过上采样低分辨率表示获得的高分辨率低层和高层表示。相反,我们重复多分辨率融合,在低分辨率表示的帮助下提高高分辨率表示,反之亦然。因此,所有高分辨率到低分辨率的表示都具有很强的语义。

本文介绍了 HRNet 的两个版本。第一个称为 HRNetV1,只输出从高分辨率卷积流计算出的高分辨率表示。通过遵循 heatmap 估计 框架,将其应用于人体姿态估计。在COCO关键点检测数据集上实验证明了优越的姿态估计性能[94]。

另一个称为 HRNetV2,它结合了所有高分辨率到低分辨率并行流的表示。通过从组合的高分辨率表示中估计分割图,将其应用于 语义分割。所提方法在 PASCAL-Context、Cityscapes和LIP上取得了最先进的结果,具有相似的模型大小和较低的计算复杂度。观察到HRNetV1 和 HRNetV2 在 COCO姿态估计 的性能相似,以及 HRNetV2 在语义分割方面比 HRNet1 的优越性。

此外,从 HRNetV2 的高分辨率表示输出中构建了一个 multi-level 表示 HRNetV2p,并将其应用于最先进的检测框架,包括 Faster R-CNN、Cascade RCNN[12]、FCOS[136]和CenterNet[36],以及最先进的联合检测和实例分割框架,包括 Mask R-CNN[53]、Cascade Mask R-CNN 和 Hybrid Task Cascade[16]。实验结果表明,该方法提高了检测性能,特别是对小目标的检测效果更为显著。

2 相关工作

我们 从 低分辨率表示学习、高分辨率表示恢复 和 高分辨率表示保持 3个方面 ,回顾了主要针对 人体姿态估计[57]、语义分割和目标检测而发展的密切相关的 表示学习技术 。此外,还介绍了一些与多尺度融合相关的工作。

Learning low-resolution representations.

全卷积网络方法[99],[124]通过删除分类网络中的全连接层来计算低分辨率表示,并估计它们的粗分割图。通过结合从 中间的 low-level 中分辨率表示 估计的精细分割分数图[99],或迭代过程[76],来改进估计的分割图。类似的技术也被应用于边缘检测,例如整体边缘检测[157]。

通过将少数(通常是两个) 跨步卷积 和 相关卷积 替换为 扩张卷积,全卷积网络被扩展为扩张版本,从而得到 中分辨率表示[18],[19],[86],[168],[181]。通过特征金字塔,表示进一步增强到 多尺度上下文表示[19],[21],[181],以分割多个尺度的对象。

待续

\(\frac{\sum_{i} \exp \left(-d_{i}^{2} / 2 s^{2} k_{i}^{2}\right) \delta\left(v_{i}>0\right)}{\sum_{i} \delta\left(v_{i}>0\right)}\)

posted @ 2023-02-18 16:31  cold_moon  阅读(131)  评论(0编辑  收藏  举报