CA_Net

  我们在CNN架构中广泛使用了多重注意力,并提出了一个全面的基于注意力的CNN(CA-Net),以更准确和可解释的医学图像分割,同时了解最重要的空间位置、通道和尺度。特别地,我们首先提出了一个联合空间注意模块,使网络更多地关注前景区域。然后,在此基础上,提出了一种新的通道注意模块来自适应地重新校准通道级特征响应,并突出了最相关的特征通道。另外,我们提出一个等级注意模块隐式地强调了多个尺度中最显著的特征映射,从而使CNN能够适应物体的大小。与最先进的DeepLabv3+相比,它将模型尺寸缩小到了15倍左右,具有接近甚至更好的精度。此外,通过可视化的注意力权重图,它比现有的网络具有更高的可解释性。我们的代码可以在https://github.com/HiLab-git/CA-Net上找到。

  为什么说自动医学图像分割是一个具有挑战性的任务呢。首先,医学图像可以通过多种多样的协议获取,通常具有低对比度和不均匀的外观,导致过分割和分割不足。其次,一些结构在尺度和形状上有很大的变化,如皮肤镜图像中的皮肤病变,因此很难建立一个先验的形状模型。此外,一些结构在较大的图像背景下可能有很大的位置和方向变化,如磁共振成像(MRI)中的胎盘和胎儿大脑。为了实现良好的分割性能,自动分割方法非常需要了解目标的规模和位置。随着深度卷积神经网络(CNNs)的发展,许多分割任务已经实现了最先进的性能。与传统方法相比,cnn具有更高的表示能力,可以从大数据集中自动学习最有用的特征。然而,大多数现有的cnn面临以下问题:首先,通过设计卷积层,他们使用共享权重在不同的空间位置,这可能导致缺乏空间意识,从而降低性能在处理结构与灵活的形状和位置,特别是对小目标。第二,他们通常使用大量的特征通道,然而这些通道可能是多余的。许多网络,如U-Net ,使用具有不同语义信息的低级和高级特征的串联。它们在分割任务中可能具有不同的重要性,在抑制一些不相关通道的同时突出相关通道将有利于分割任务。第三,cnn通常提取多尺度特征来处理不同尺度的对象,但缺乏对特定图像分割最合适的尺度的意识。最后,由于大多数现有cnn的嵌套非线性结构,很难以黑盒的方式来解释和使用,这限制了其在临床决策中的应用。为了解决这些问题,注意机制有希望提高cnn的分割性能,因为它模拟了人类关注特征图中最相关的信息,同时抑制不相关的部分的行为。一般来说,cnn可以利用不同类型的关注,如关注相关的空间区域、特征通道和尺度。作为空间注意的一个例子,注意门(AG)隐式地生成软区域建议,并突出了腹部器官分割的有用的显著特征。挤压和激发(SE)块[7]是一种信道注意,它重新校准了与目标相关的有用的信道特征映射。Qin使用了一种注意力来来解决大脑肿瘤分割的不同感受野的多平行分支,同样的想法也用于超声图像的前列腺分割。然而,这些工作只证明了使用单一或两种注意机制进行分割的有效性,这可能会限制网络的性能和可解释性。我们假设,更全面地使用注意力将提高分割性能,并使其更容易理解网络是如何工作的。对于人工智能系统,当应用于医学诊断时,其可解释性是非常可取的。cnn的可解释性对于验证预测具有重要意义,其中网络对正确特征的依赖必须保证。它还可以帮助人类理解模型的弱点和优势,以提高性能,并发现从一个大数据集中提取的新知识。在分割任务中,可解释性有助于开发人员解释和理解决策是如何获得决策的,并相应地修改网络,以获得更好的准确性。一些早期的工作试图通过可视化不同层中的特征映射或卷积内核来理解cnn的决策。其他的方法,如类激活映射(CAM)引导反向传播(GBP),主要被提出用于解释中枢神经网络在分类任务中的决策。然而,cnn在医学图像分割中的可解释性很少被研究。施莱默等人提出了注意门,隐式学习抑制无关区域,同时突出显著特征。此外,Roy等人同时引入了空间注意力和通道注意力,以促进有意义的特征。在这项工作中,我们利用空间、通道和尺度上的关注来解释和理解我们的网络是如何获得像素级预测的。可视化由我们的网络获得的注意力权值不仅有助于理解哪个图像区域被激活为分割结果,而且还有助于阐明对预测贡献最大的尺度和通道。

  我们所知,这是第一次使用综合关注来提高cnn在医学图像分割的性能和可解释性。这项工作的贡献有三点:首先,我们提出了一种新的基于注意力的综合网络(即CA-Net),以充分利用对空间位置、通道和尺度的注意。其次,为了实现这些注意,我们提出了一个新的构建模块,包括一个双路径多尺度空间注意模块、一个新的剩余通道注意模块一个自适应选择特征的尺度注意模块。第三,我们利用综合关注来获得良好的网络可解释性,其中分割结果可以归因于相关的空间区域、特征通道和尺度。我们提出的CA-Net在两个分割任务上得到了验证:从皮肤切片图像的二元皮肤损伤分割和胎儿MRI(包括胎儿大脑和胎盘),其中物体在位置、规模和形状上变化很大。大量的实验表明,CA-Net的性能优于不使用或只使用部分注意的同类产品。此外,通过可视化注意力权重图,我们可以很好地解释CA-Net如何在分割任务中工作。

相关工作

A、图像分割的CNN

  全卷积网络(FCN)框架,如DeepLab ,是一种成功的自然语义图像分割方法。随后,提出了一种编码-解码器网络SegNet 来生成密集的特征图。DeepLabv3+ 扩展了DeepLab,增加了一个解码器模块和使用深度可分离卷积,以获得更好的性能和效率。在医学图像分割中,FCNs也被广泛应用于广泛的任务中。U-Net [6]是一种广泛应用于二维生物医学图像分割的CNN。提出了具有相似结构的三维UNet [21]和V-Net [22]用于三维医学图像分割。在[23]中,我们提出了一种扩张的残余和金字塔池化网络,用于黑色素瘤的自动分割。其他一些对医学图像分割性能良好的CNNs包括HighRes3DNet [24]、DeepMedic [25]和H-DenseUNet [26]等。然而,这些方法只使用位置不变的内核进行学习,而不关注与分割对象更相关的特征和位置。同时,它们的可解释性也很差,因为它们提供的解释决策过程的机制也很少。

B、注意力机制

在计算机视觉中,有注意机制应用于不同的任务场景。空间注意力已被用于图像分类、和图像标题等。学习到的注意向量突出了基于当前特征的序列的显著空间区域,然而抑制不相关的对应部分,使预测更加情境化。使用通道注意的SE块最初被提出用于图像分类,最近被用于语义分割[26],[28]。这些注意机制的思想通过生成一个上下文向量来分配输入序列的权重来工作。在[30]中,提出了一种在多个尺度上倾向于软权重特征图的注意机制。然而,这种方法将多个调整大小的输入图像输入到一个共享的深度网络,这需要人类的专业知识来选择适当的大小,并且不能自适应目标规模。最近,为了利用注意机制进行医学图像分割,Oktay等人[9]将空间注意与U-Net结合起来,从CT图像中进行腹部胰腺分割。Roy等人[17]提出了并行的空间和通道明智的“挤压和兴奋”(scSE)框架,用于全脑和腹部多器官的分割。Qin等人[10]和Wang等人[11]从中间层获得了不同大小的特征图,并通过分配一个注意力权重来重新校准这些特征图。尽管利用注意机制进行医学图像分割的工作越来越多,但它们很少关注不同尺度上的特征图。更重要的是,它们大多只关注一两种注意机制,而据我们所知,注意机制还没有被全面纳入,以提高分割任务的准确性和可解释性。

方法

A、综合性的注意力CNN

提出的利用综合注意的CA-Net如图1所示,我们添加了专门的卷积块,同时实现对特征图的空间、通道和尺度的综合注意引导。不失一般性,我们选择了U-Net [6]的强大结构作为主干。U-Net主干网是一个端到端可训练的网络,由一个编码器和一个解码器组成,在每个分辨率级别上都有快捷连接。编码器是一种特征提取器,通过多个尺度顺序获得高维特征,解码器利用这些编码的特征来恢复分割目标。

带有3×3或1×1和数字(16、32、64、128和256,或类)的蓝色矩形对应于卷积核大小和输出通道、.我们使用四个空间注意(SA1到SA4)、四个通道注意(CA1到CA4)和一个量表注意(LA)。F1−4是指重新采样的特征图,作为尺度注意模块的输入。

 

 

我们的CA-Net有四个空间注意模块(SA1−4)、四个通道注意模块(CA1−4)和一个尺度注意模块(L A),如图1所示。空间注意(SA)被用来加强特征图上的感兴趣区域,同时抑制潜在的背景或无关部分,因此,我们提出了一种新的多尺度空间注意模块,该模块结合了最低分辨率水平的非局部块[31](SA1)和其他分辨率水平的双路径AG(SA2−4)。我们称之为联合空间注意(J s−A),它增强了像素间的关系,使网络更好地关注分割目标。通道注意(CA1−4)用于校准网络中低级和高级特征的连接,从而使更相关的通道被更高的系数加权。与仅使用平均池化来增加通道注意权重的SE块不同,我们另外引入了最大池特征来利用通道注意[32]的更显著信息,最后,我们在解码器中连接了多个尺度上的特征图,并提出了一个尺度注意模块(L A)来突出与分割目标最相关的尺度上的特征。下面将详细介绍这些不同的注意模块。

  1)联合空间注意模块:联合空间注意的灵感来自于非局部网络和AG(SA2−4)。我们在网络中使用四个注意块(SA1−4)来学习四个不同分辨率水平上的注意图,如图1所示。首先,对于最低分辨率水平下的空间注意(S A1),我们使用一个非局部块,该块捕获所有像素之间的交互,并更好地了解整个上下文。(S A1)的细节如图2(a).所示,设x表示形状为256×H×W,其中256为输入通道数,H,W分别表示高度和宽度。我们首先使用三个平行的1×1卷积层,输出通道数为64来减少x的维数,分别得到三个压缩的特征映射x'、x''和x''',它们具有相同的形状为64×H×W。然后,可以将这三个特征图重塑为形状为64×HW的二维矩阵,一个空间的注意力系数图遵循,其中T表示矩阵转置操作。α1∈(0,1)HW×HW是一个方阵,σ是一个行Softmax函数,使每一行的和等于1.0。α1表示每个像素的特征为所有像素特征的加权和,以确保所有像素之间的交互作用。校准的特征图为:,然后将xˆ重塑为64×H×W,我们使用,这是一个1×1的卷积,批归一化,输出通道数为256,以展开ˆx以匹配通道数x。最后利用残余连接在训练过程中促进信息的传播,得到S A1的输出为:,其次,由于增加的内存消耗限制了将非局部块应用于更高分辨率的特征图,我们扩展了AG以学习Sa2−4中的注意系数。由于单一的AG可能导致噪声空间注意图,我们提出了一种双路径空间注意,同时利用两个AGs来加强对感兴趣区域的注意,并减少注意图中的噪声。与模型集成类似,并行结合两个AGs有可能提高分割的鲁棒性。

单通路AG的详细情况如图2(b).所示让xl表示编码器中尺度上的低级特征图,xh表示从解码器末端的尺度+1以较低的空间分辨率向上采样,从而使xh和xl具有相同的形状。在单路径AG中,查询特征xh用于校准低级关键特征xl。如图2(b)所示,xh和xl分别与输出通道数C(例如,64)进行1×1卷积压缩,结果求和,然后是ReLU激活函数。然后将ReLU得到的特征图输入另一个1×1对流,其中有一个输出通道和Sigmoid函数,得到像素级注意系数α∈[0,1]H×W。然后将xl与要校准的α相乘。在我们的双通路AG中,这两条路径中的空间注意图记为ˆα和α~,如图2(c)所示,我们对S As(s = 2,3,4)的双路径AG的输出结果为:,其中,©表示信道连接。表示1×(4) 1与C输出通道的卷积,然后进行批量归一化。这里S A2、S A3和S A4的C分别为64、32和16。

  2)通道注意模块:在我们的网络中,采用通道连接法,将编码器的空间注意校准的低级特征和解码器的高级特征相结合,如图1所示。编码器的特征通道大多包含低级信息,而解码器的特征通道包含更多的语义信息。因此,它们可能对分割任务具有不同的重要性。为了更好地利用最有用的特征通道,我们引入了通道注意,在抑制不相关通道的同时自动突出相关的特征通道。建议的通道注意模块(CA1−4)的细节如图3所示。与之前的SE块只使用平均池信息来激发特征通道[7]不同,我们另外使用最大池特征来保留更多的信息[32]。同样,让x表示连接C个通道的输入特征映射,全局平均池化Pavg和全局最大池化Pmax首先用于获得每个通道的全局信息,和输出分别表示为Pavg (x)∈RC×1×1和Pmax (x)∈RC×1×1。多层感知(MLP)Mr用于获得信道注意系数β∈[0,1]C×1×1,并且Mr由两个完全连接的层实现,其中第一层的输出通道数为C/r,然后是ReLU,第二层的输出通道数为C。我们设置r = 2来计算性能和计算成本之间的权衡,请注意,a共享的Mr用于Pavg (x)和Pmax (x),它们的结果被相加并输入一个Sigmoid以获得β。我们的通道注意模块的输出结果为:我们使用残余连接来有利于训练。在我们的网络中,使用了四个通道注意模块(CA1−4)(每个连接的特征一个),如图1所示

  3)尺度注意模块:U-Net骨干网获得了不同尺度下的特征图。为了更好地处理不同尺度的物体,将这些特征结合进行最终预测是合理的。然而,对于一个给定的对象,这些不同尺度的特征映射可能与该对象有不同的相关性。我们希望自动确定每个像素的尺度级权重,以便网络能够自适应给定输入的相应尺度,因此,我们提出了一个尺度注意模块,自动学习每个尺度的图像特定权重,以校准不同尺度的特征,在网络的末端使用,如图1所示。我们提出的LA块如图4所示。我们首先使用双线性插值法对解码器获得的不同尺度(s = 1、2、3、4)的特征映射Fs重新采样到原始图像的大小。为了降低计算成本,使用1×1卷积将这些特征图压缩为4个通道,并将来自不同尺度的压缩结果连接为一个混合特征图ˆF

 

posted @ 2023-03-21 19:08  机器智能小白凡  阅读(190)  评论(0编辑  收藏  举报