Transformer
1.Stand-Alone Self-Attention in Vision Models
url:https://arxiv.org/abs/1906.05909
做了一个纯attention的网络,这里的attention是局部的,并且带了一个全局共享的relative position encoding。在分类和目标检测上取得了与ConvNets差不多的结果,但是parameters和flops都更低。还得出的一些比较有趣的结论:在网络的较后的位置加attention更好。虽然para和flops都更低,但是跑的慢。
2.Fastformer: Additive Attention Can Be All You Need
url:https://arxiv.org/pdf/2108.09084.pdf
这篇paper真对把self-attention做到的线性复杂度。主要方法是,放弃计算两两之间的关系,转而使用一个全局的q,k。这样就把计算量降下来了。最终的结果就是,计算量掉下来了。但是性能没咋掉。这个方法是基于NLP的sequence的,可能对CV有用。