TransUNet——彻底改变传统的图像分割

TransUNet——彻底改变传统的图像分割

通过结合 CNN 和 Transformer 对 U-Net 进行改造,以在图像分割任务上实现 SOTA 结果。

目录

· 直觉
· TransUNet
∘ 下采样(编码)
∘ 上采样(解码)
· 结果
· 实现
· 参考

Photo by 碧玉的家伙 on 不飞溅

直觉

如今, 网络 主导了图像分割任务,尤其是在医学成像领域。在迄今为止提出的大多数 U-Net 中,卷积神经网络 (CNN) 被广泛用作它们的底层结构。

然而, CNN 只能有效地利用短程(或本地)信息 由于它们的卷积核尺寸较小,无法在具有远程关系特征的任务中充分探索远程信息。

变形金刚 ,通常用于处理自然语言处理任务,可以有效地探索远程信息,但 它们在利用短程信息方面并不像 CNN 那样稳健 .

Chen 等人在图像分割任务中使用 CNN 的强大功能可以弥补 Transformer 的缺点,反之亦然。建议的 跨网 ,这也是 第一个由 Transformer 构建的图像分割模型 . 还值得一提的是,作者首先尝试使用纯 Transformer 架构进行图像分割,从而验证了将 CNN 和 Transformer 相结合的有希望的结果。然而,它的效果不如在其架构中引入 CNN,因为 Transformer 在利用局部特征方面不如 CNN。

** TransUNet**

我们知道在 网络 (图 1)有一个 编码器 (下采样路径)和 解码器 (上采样路径)。下采样路径会将图像的特征编码为高级映射,上采样路径将使用其细节来生成与输入相同维度的最终掩码。

Fig. 1: U-Net diagram from the 原纸 by Ronneberger et al.

同样,TransUNet 也包括一个 编码器 和一个 解码器 用于编码和解码图像信息以产生分割。与传统的 U-Net 不同,TransUNet 使用 混合 CNN-Transformer 架构 作为编码器来学习来自 CNN 的高分辨率空间信息和来自 Transformer 的全局上下文信息。

Fig. 2: TransUNet architecture design overview. MSA stands for Multi-head Self-Attention, and MLP stands for Multi-Layer Perceptron.

分解步骤:

下采样(编码)

  • 首先,使用 CNN 作为特征提取器,为输入生成特征图,如图 2 中的粉色框所示。
  • 对于特征提取器的每一级,输出特征图 ( 编码中间高级特征图 ) 是然后 串联的 到同一级别的解码器路径,如图2中的虚线箭头所示。
  • 然后,特征图被标记(矢量化)为形状 (n_patch, D) 的二维嵌入 线性投影, D 是嵌入的总长度。嵌入是预训练的,并将保留特征图的位置信息( 如果你不明白怎么做,暂时不要担心,因为它不会过多妨碍你对 TransUNet 的理解 )。
  • 最后, 为上采样路径做准备 ,输出被重塑为 (D, H/16, W/16)。 H/16 和 W/16 表示此时的高度和宽度由于之前的操作已经缩小了 16 倍。

Fig. 3: Simplified version of the TransUNet architecture overview.

上采样(解码)

上采样过程非常简单( 没有任何花哨的技术 )。

  • 首先,来自 CNN-Transformer 编码器的输入由 具有 ReLU 激活的 3x3 卷积层,上采样 , 接着 串联的 与输出 三级 CNN 特征提取器。
  • 然后将生成的特征图通过带有 ReLU 激活层的 3x3 卷积运行 再次 .然后将输出与来自 第二级 CNN 特征提取器。
  • 步骤是 重复 再次。现在,输出是形状中的掩码 (C、H、W) ,其中 C=目标类别数,H=图像高度,W=图像宽度。

作者还指出, 更密集地结合低级特征通常会导致更好的分割精度 .

结果

该模型在 Synapse 多器官分割数据集上运行。最终分数由 Dice Similarity Coefficient 和 Hausdorff distance 评估。

如您所见,TransUNet 的性能优于大多数现有的 SOTA 架构,例如 V-Net、ResNet U-Net、ResNet Attention U-Net 和 Vision Transformers,这表明基于 Transformer 的架构更善于利用​​自身-attention 比其他基于自我注意的 CNN U-Nets。

Table 1: Performance summary of TransUNet compared to other SOTA image segmentation models.

实现

官方 TransUNet 实施

谢谢! ❤️
我们恳请您考虑给我们一些掌声! ❤️

参考

TransUNet:Transformers 为医学图像分割提供强大的编码器

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/15416/46100508

posted @   哈哈哈来了啊啊啊  阅读(3116)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
点击右上角即可分享
微信分享提示