Higher HRNet学习笔记

 
  • 为何提出Higher HRNet?
    • 现在的人体姿态估计方法大概方法大概可分为Top-down方法和Bottom-up方法。
      • Top-down方法用检测器来检测出人体,并用bounding box来将人体标注出来,这样单独将每个人体都检测出来之后,就可以将多人姿态估计问题降为单人姿态估计。因为Top-down方法可以将每个检测到的人体区域,通过resize等方式,将所有人体都统一为一种尺度,所以top-down方法对人体尺度的变化不敏感(大、中、小),所以在多人体姿态估计问题中,能够达到state of the art的方法,基本上都是Top-down方法,但是Top-down方法的缺点是:该方法依赖于一个单独的检测器,并且需要单独地为每个人进行姿态估计。所以它的计算量是比较大的,而且也没能实现端到端。
      • 与此相反的是,Bottom-up方法是在一张图片中检测所有人体的关键点,这些关键点一开始是与具体的某个人无关的,是在检测到之后,再通过某种方法将属于同一个人体的关键地,组合起来,构成一个人体实例。bottom-up方法的优点是速度快,但该方面却需要一个比较重要的问题,就是尺度变换的问题,因为它不能像Top-down方法那样将所有检测到的人体到统一成同一个尺度。而以往的Bottom-up方法普遍忽略了尺度变换的问题,Higher HRNet就能有效地解决这个问题:它在不牺牲计算性能的前提下,生成空间信息精确并且scale-aware的热图。
      • 对于Bottom-up方法,要实现关键点检测,有两个主要的挑战,一是要解决尺度变化的问题,二是要保证能够生成高分辨率、高质量位置信息的热图。通过反卷积解决尺度变化的问题和实现高分辨率热图,通过HRNet来实现高质量位置信息的热图。所以Higher HRNet可以简单地理解为HRNet+反卷积。
      • 整篇文章最重要的一点就是,通过反卷积提高热图的分辨率,因为热图的分辨率对预测小人体的关键点是非常重要的。把热图的分辨率大了,那么小的人体也变大了。 从而缓解了尺度变化所带来的问题。
 
 
  • HRNet的结构
    • 为何提出HRNet?
      • 对于位置信息敏感的视觉问题,高分辨率的表征representation是非常重要, 如人体姿态估计、语义分割、物体检测。而以往的都是先降后升,比如encoder-decoder、SegNet、UNet,先通过一个backbone降低分辨率,然后再通过上采样或者反卷积等恢复分辨率,或者使用空洞卷积来避免一些下采样降低分辨率。提出一种新的结构,HRNet,在整个过程中能保持分辨率不变。
 
    • HRNet的结构
      • 总体结构:
        • 首先,经过stem,将分辨率降为1/4:  We input the image into a stem, which consists of two stride-2 3 × 3 convolutions decreasing the resolution to 1/4
        • 然后,从高分辨率的卷积流开始,慢慢地往最后一个卷积流增加一个从高分辨率到低分辨率的卷积流,在增加新的卷积流的同时,进行多分辨率特征图融合,以此来交换或者说共享不同尺度的信息。一般而言高分辨率携带的是位置信息,低分辨率携带的是语义信息,这样融合就能够将位置信息和语义信息共享起来了。
        • 最后是输出,从图中可看出有四条卷积流的输出,那么如何使用这些输出呢?论文通过3种不同的方式,将这些输出利用起来。1是只用最高分辨率的。2是将四个都concate起来,三是将四个concate起来,然后再做成一个特征金字塔形式。v1用于人体姿态估计,v2用于语义分割,v3用于物体检测。
    • HRNet的优点
      • 作者提出的方法是并行连接高分辨率与低分辨率网络,而不是像之前方法那样串行连接。因此,其方法能够保持高分辨率,而不是通过一个低到高的过程恢复分辨率,因此预测的heatmap可能在空间上更精确。
      • 本文提出的模型,将低分辨率特征图融合到高分辨率特征图上,来提高高分辨率的特征图的表示效果,并重复进行的多尺度融合。
 
 
  • Higher HRNet结构
    • 在HRNet的基础上加一点东西
      • 在HRNet的输出后面,加入若干了反卷积层,从而提高了feature的分辨率,能有效解决scale variation的问题
    • HRNet解决第二个挑战,反卷积解决第一个挑战
      • 反卷积:scale-aware、高分辨率
      • HRNet:高质量位置信息
 
 
  • Result
 
 
  • Ablation
    • Effect of deconvolution module
    • Effect of feature concatenation
    • Effect of heatmap aggregation
    • Effect of extra residual blocks
 
 
 
 
 
 
 
 
 
 
 
 

posted on 2020-10-25 18:53  ZhicongHou  阅读(772)  评论(0编辑  收藏  举报

导航