TransPose: Towards Explainable Human Pose Estimation by Transformer

TransPose: Towards Explainable Human Pose Estimation by Transformer

2021-01-05 21:06:22

Paper: https://arxiv.org/pdf/2012.14214.pdf

Code: https://github.com/yangsenius/TransPose

1. Background and Motivation:

本文将 transformer 和 pose estimation 结合在一起，提出 TransPose。核心思想是增强了可解释性。大致的方法如下：

可以看到，是 CNN + transformer 的结构。并且每一个 layer 较好的反映了不同物体之间以及不同 part 的之间的依赖关系。本文的另外的核心观点是，CNN 较好的关注 low-level feature，但是感受野受限，而 Transformer 不存在这种问题。

2. Approach Detail:

该网络主要由三个部分构成：

1). Backbone network: 本文采用 resnet-50 和 HRNet 作为骨干网络提取 low-level feature；

2). Transformer Encoder:

将 CNN 输出的 feature map 进行 reshape，得到多个向量特征。然后输入到 Transformer 模型中。

3). Prediction Head:

首先对 transformer 的输出进行 reshape，得到 C*H*W 的 feature map。然后用 1*1 或者 4*4 conv layers 对得到的 feature vector 进行变换。

3. Experiment：

posted @ 2021-01-05 22:24 AHU-WangXiao 阅读(1038) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· CSnakes vs Python.NET：高效嵌入与灵活互通的跨语言方案对比
· DeepSeek “源神”启动！「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
· 上周热点回顾（2.17-2.23）

历史上的今天：
2017-01-05 StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 论文笔记
2017-01-05 Image-to-Image Translation with Conditional Adversarial Networks 论文笔记

昵称： AHU-WangXiao
园龄： 9年4个月
粉丝： 430
关注： 25

2025年2月

日

一

二

三

四

五

六

The Blog of Xiao Wang