2023-8-24 Pyramid Vision Transformer 2023人工智能大会青年科学家论坛

Pyramid Vision Transformer | 2023人工智能大会青年科学家论坛

王文海 香港中文大学

  • 首次将多层次金字塔结构引入视觉变化网络

  • 研究动机

    • | 方法 | 感受野,模型权重->表征能力 | 结构输出->适用面 |
      | ---- | -------------------------- | ---------------- |
      | CNN | 局部固定 | 金字塔多尺度 |
      | ViT | 全局自适应 | 柱状单尺度 |
      | PVT | 全局自适应 | 金字塔多尺度 |
  • 关键点

    • 金字塔结构:分辨率由大到小,特征维度从小到大
    • 四段式结构:每个阶段存在独立patch 和 transformer
    • 空间压缩注意力机制:解决分辨率高导致的资源消耗大的问题
  • 如何控制每个阶段分辨率大小

    • \(H\times W\times C\to H/P\times W/P\times CP^2\to H/P\times W/P\times C'\to\mathrm{Decoder}\)
  • 如何减小高分辨率特征图上注意力算子的计算消耗

    • 空间压缩注意力层
    • 处理后复杂度仅有原先复杂度的\(1/R_i^2\)
  • 如何搭建模型结构

    • 参考ResNet模型搭建规则
      • 随层数加深特征图分辨率减小,维度加大
      • 主要计算量集中在第三层
  • 优点汇总

    • 可以输出多尺度高分辨率特征图
    • 结合纯transformer的解码器实现检测和分割
posted @ 2023-11-06 15:38  SweepyZhou  阅读(62)  评论(0编辑  收藏  举报