摘要:
一、什么是知识蒸馏,为什么要使用知识蒸馏? 知识蒸馏是一种将预先训练的教师网络的知识转移到学生网络的方法,使小型网络可以在网络部署阶段取代大型教师网络。知识蒸馏的概念最初是由Hinton等人提出的,已广泛应用于各个领域和任务。知识蒸馏的基本原理是通过训练一个更小、更轻量级的模型来学习更大、更复杂的模 阅读全文
摘要:
来自美团技术团队♪(^∀^●)ノシ 论文地址:https://arxiv.org/abs/2104.13840 代码地址:https://git.io/Twins 一、写在前面 本文提出了两种视觉转换器架构,即Twins-PCPVT和Twins-SVT。 Twins-PCPVT 将金字塔 Trans 阅读全文
摘要:
来自微软(*^____^*) 论文地址:[2107.00641] Focal Self-attention for Local-Global Interactions in Vision Transformers (arxiv.org) 代码地址:microsoft/Focal-Transforme 阅读全文
摘要:
来自CVPR2022 基于多尺度令牌聚合的分流自注意力 论文地址:[2111.15193] Shunted Self-Attention via Multi-Scale Token Aggregation (arxiv.org) 项目地址:https://github.com/OliverRensu 阅读全文
摘要:
来自快手(ฅ′ω`ฅ) 论文地址:[2106.05786] CAT: Cross Attention in Vision Transformer (arxiv.org) 项目地址:https://github.com/linhezheng19/CAT 一、Abstract 由于Transformer 阅读全文
摘要:
来自NUS&NVIDIA 文章地址:[2204.12451] Understanding The Robustness in Vision Transformers (arxiv.org) 项目地址:https://github.com/NVlabs/FAN 一、Motivation CNN使用滑动 阅读全文
摘要:
来自华为(❤ ω ❤) 论文地址:[2107.06263] CMT: Convolutional Neural Networks Meet Vision Transformers (arxiv.org) 项目地址:https://github.com/huawei-noah/Efficient-AI 阅读全文
摘要:
来自CVPR 2021 论文地址:[2108.00154] CrossFormer: A Versatile Vision Transformer Hinging on Cross-scale Attention (arxiv.org) 代码地址:https://github.com/cheerss 阅读全文
摘要:
来自ICCV2021 论文地址:[2102.12122] Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions (arxiv.org) 代码地址:https://githu 阅读全文
摘要:
来自美团技术团队2023年ICLR会议上发表的论文 论文地址:https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/2102.10882.pdf 一、Motivation 由于Transformer中的Self-Attention操作是Perm 阅读全文