TransPose: Towards Explainable Human Pose Estimation by Transformer
TransPose: Towards Explainable Human Pose Estimation by Transformer
2021-01-05 21:06:22
Paper: https://arxiv.org/pdf/2012.14214.pdf
Code: https://github.com/yangsenius/TransPose
1. Background and Motivation:
本文将 transformer 和 pose estimation 结合在一起,提出 TransPose。核心思想是增强了可解释性。大致的方法如下:
可以看到,是 CNN + transformer 的结构。并且每一个 layer 较好的反映了不同物体之间以及不同 part 的之间的依赖关系。本文的另外的核心观点是,CNN 较好的关注 low-level feature,但是感受野受限,而 Transformer 不存在这种问题。
2. Approach Detail:
该网络主要由三个部分构成:
1). Backbone network: 本文采用 resnet-50 和 HRNet 作为骨干网络提取 low-level feature;
2). Transformer Encoder:
将 CNN 输出的 feature map 进行 reshape,得到多个向量特征。然后输入到 Transformer 模型中。
3). Prediction Head:
首先对 transformer 的输出进行 reshape,得到 C*H*W 的 feature map。然后用 1*1 或者 4*4 conv layers 对得到的 feature vector 进行变换。
3. Experiment:
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 一个奇形怪状的面试题:Bean中的CHM要不要加volatile?
· [.NET]调用本地 Deepseek 模型
· 一个费力不讨好的项目,让我损失了近一半的绩效!
· .NET Core 托管堆内存泄露/CPU异常的常见思路
· PostgreSQL 和 SQL Server 在统计信息维护中的关键差异
· CSnakes vs Python.NET:高效嵌入与灵活互通的跨语言方案对比
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
· 上周热点回顾(2.17-2.23)
2017-01-05 StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 论文笔记
2017-01-05 Image-to-Image Translation with Conditional Adversarial Networks 论文笔记