Segformer: 高效自注意力/MIT encoder
NIPS21 SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers
网络架构:轻量化decoder,各层只经过MLP和上采样到同一分辨率;主要依靠较重的encoer来获取特征,作者认为较大的感受野是提升性能的关键;encoder由四层transformer block组成,输入特征分辨率为1/4.
transformer block包含patch merging+N组(self-attention+Mix-feed-forward)
- self-attention对key特征维度做了衰减reshape,因而降低了计算复杂度;
- Mix-feed-forward选择MLP(1*1卷积实现)和3*3卷积混合使用,解释为单纯3*3卷积padding补0操作会导致缺乏位置信息
实验
感受野可视化
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通