Transformer

1.Stand-Alone Self-Attention in Vision Models
url:https://arxiv.org/abs/1906.05909
做了一个纯attention的网络,这里的attention是局部的,并且带了一个全局共享的relative position encoding。在分类和目标检测上取得了与ConvNets差不多的结果,但是parameters和flops都更低。还得出的一些比较有趣的结论:在网络的较后的位置加attention更好。虽然para和flops都更低,但是跑的慢。
2.Fastformer: Additive Attention Can Be All You Need
url:https://arxiv.org/pdf/2108.09084.pdf
这篇paper真对把self-attention做到的线性复杂度。主要方法是,放弃计算两两之间的关系,转而使用一个全局的q,k。这样就把计算量降下来了。最终的结果就是,计算量掉下来了。但是性能没咋掉。这个方法是基于NLP的sequence的,可能对CV有用。

posted @   John_Ran  阅读(64)  评论(0编辑  收藏  举报
编辑推荐:
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
· 三行代码完成国际化适配,妙~啊~
点击右上角即可分享
微信分享提示