2018/8/31周报
Cascaded U-Net+3D CRF[1]
Contributions
本文发表在MICCAI 2016,是在肝脏肿瘤CT影像分割领域中最早引入深度学习方法的论文之一。本文使用级联2D U-Net模型实现肝脏区域及肝脏肿瘤的分割,并使用3D条件随机场后处理以提升最终精度。
Methods
约定
集合\(\mathcal L=\{0,1,2\}\),0=背景,1=肝脏,2=肝脏肿瘤
集合\(\mathcal L^N\)表示每个元素属于\(\mathcal L\)的N维向量构成的集合,\(\mathrm x\in \mathcal L^N\)表示最终对一个volume的分割结果
数据预处理
本文使用3DIRCADb数据集,该数据集包含20个病人的静脉相期CT volume,这些样本是由不同的CT扫描仪采集来的
本文使用其中15个包含肝脏肿瘤的volume来训练并验证模型,使用K-fold交叉验证(K=2)
对所有原始的volume,保留[-100,400] HU的部分,以排除其他与肝脏无关的组织,再使用直方图均衡化增强对比度。并通过随机翻转、旋转、增加高斯噪声来增强数据
Cascaded Fully Convolutional Neural Networks(CFCN)
本文使用两个U-Net实现肝脏及肝脏肿瘤的分割。第一个U-Net从slices中分割出肝脏ROI,第二个U-Net输入经裁剪、重采样后的肝脏图像,并分割出肝脏肿瘤。第一个U-Net有助于减少最终的假阳性的分割结果。
损失函数
考虑到本问题中前景与背景非常不平衡,损失函数采用加权交叉熵:
其中,\(\hat P_i\)表示第i个像素点的Ground Truth(\(\hat P_i=1\)表示GT中该像素点是前景),\(P_i\)表示第i个像素点属于前景的概率,$w_i^{class}=\(1/(Ground Truth属于\)\hat P_i$类的像素点总数)
实验细节
- 硬件:NVIDIA Titan X显卡 ×1
- 深度学习框架:Caffe
- Learning rate=0.001
- Momentum=0.8
- Weight decay=0.0005
3D条件随机场(3D Conditional Random Field, 3D CRF)
该论文没有采用3D卷积神经网络,是因为其对GPU显存要求太高。另外,由于3DIRCADb数据集中每个样本的分辨率不同(x/y轴的分辨率在0.57-0.8mm,z轴分辨率为1.25-4mm),导致直接训练3D卷积神经网络变得更加复杂。
为了充分利用样本层与层之间的信息,本文采用3D dense conditional random field,对级联U-Net输出的分割结果作后处理。
我们把一个volume通过级联U-Net得到的分割结果(注意是soft prediction,即每个voxel属于肿瘤的概率)放在一起,用3D CRF一次性地后处理,得到最终结果
定义完全图\(\mathcal G=(\mathcal V,\varepsilon)\),volume中每个voxel是一个结点\(i\in \mathcal V\),对于任意两个不同voxel对应的结点\(i,j\),有无向边\(e_{ij}\in \varepsilon=\{(i,j),\forall i,j\in \mathcal V\ \mathrm{s.t.}\ i<j\}\)
令整个volume包含N个voxel,N维variable vector \(\mathrm x\)表示每个结点\(i\in \mathcal V\)的标签,根据Gibbs distribution可以得到能量函数:
其中,\(\phi_i(x_i)=-\log P(x_i|I)\)是unary potential,由级联U-Net的概率输出\(P(x_i|I)\)(输入Volume \(I\),每个voxel \(x_i\)是前景的概率)得来。\(\phi_{ij}(x_i,x_j)\)是pairwise potential:
其中,\(\mu(x_i,x_j)=1\{x_i\neq x_j\}\)是Potts函数,\(|p_i-p_j|\)是两个voxel \(i,j\)之间的空间距离,\(|I_i-I_j|\)是原始volume中两个voxel \(i,j\)的密度(灰度)之差;\(w_{pos}\exp(\cdots),w_{bil}\exp(\cdots)\)这两项对\(\phi_{ij}(x_i,x_j)\)的贡献是由参数\(w_{pos},w_{bil}\)决定的,另外,参数\(\sigma_{pos},\sigma_{bil},\sigma_{int}\)决定了effective range(脑补下高斯分布的半高宽)
通过Efficient mean field approximation算法,我们可以得到\(\mathrm x^*=\arg \min_{\mathrm x\in \mathcal L^N}E(\mathrm x)\)的近似解,参数\(w_{pos},w_{bil},\sigma_{pos},\sigma_{bil},\sigma_{int}\)是通过随机搜索算法选取的。
实验结果
实验结果表明,级联U-Net较使用单个U-Net,性能有了较大提升,而在级联U-Net概率输出的基础上,加上3D CRF后处理后,性能有一定的提升
FCN+FC ResNet[2]
Contributions
尽管深度学习方法已被应用于医学影像领域,但传统的医学影像分割的pipeline需要预处理(标准化、直方图均衡化等)、后处理(CRF、形态学操作等),其分割效果严重受到预处理和后处理的质量的限制。
针对这个问题,本文提出了一种针对医学影像的更好的pipeline,使用一个FCN作为preprocessor来预处理输入的图像,并将其输出直接输入到一个FC-ResNet中,最终得到分割结果。
本文的方法不需要任何人工的预处理/后处理,便能在许多数据集上达到state-of-the-art的结果
Methods
FCN
本文提出的pipeline中的第一个FCN是U-Net的变种,其结构如上图所示,该FCN接收的输入是\(N\times N\times 1\)大小的、不做任何预处理的原始图像(如CT的一个slice)
其中,Output resolution表示经过该层输出的feature map尺寸,Output width表示经过该层输出的通道数,Repetition number表示该层的重复次数;另外,所有3×3卷积之后都加上了ReLU激励,而1×1和2×2卷积之后没有加激励函数
与原始的U-Net相比,这个FCN每层的通道数变成1/4(如U-Net中该层是64通道,在该FCN中变成16通道了),这样有助于减少FCN的显存占用,而且参数数量(1.8 million)较原始U-Net(33 million)也更少了
FC-ResNet
ResNet首次提出残差连接和残差块,每个残差块中包含若干个(2~3个) BN-ReLU-Conv,其输出是最后一个Conv层的输出与该残差块原始输入的和。第\(l\)个残差块的输出\(x_l\)可以表示为:
FC-ResNet是基于ResNet思想的全卷积网络,通过加入expanding path恢复到原始分辨率。其一般的结构如上图所示。
其中,有两类残差块:bottleneck block和simple block,它们的结构如上图所示,\(\bigoplus\)表示残差连接的求和,残差块内的残差连接被称为shortcut path,它们有助于提升分割精度、改善网络最优化过程,\(\bigoplus\)右边的虚线箭头表示long skip connection。
在(a)图中标白色的block,block中有颜色的层都要去掉,标蓝色的(降采样阶段的)block,要保留block中蓝色的层,标黄色的(上采样阶段的)block,要保留block中黄色的层。白色虚线边框的dropout是可选的。
本文使用的FC-ResNet结构如上图所示
FC-ResNet对数据预处理非常敏感,因此其性能高度依赖数据预处理过程。
Dice Loss
本文使用Dice Loss作为损失函数来训练模型
其中,\(o_i\in [0,1]\)表示最后一层(Sigmoid)第i个像素点的输出,\(y_i\in\{0,1\}\)表示第i个像素点的Ground Truth,Dice Loss的最小值是-1
之所以采用Dice Loss,有以下两点考虑:
- 1、Dice系数是在医学影像分割中被广泛使用的评价指标
- 2、Dice Loss适应前景与背景非常不平衡的情景
Experiments
Liver lesion dataset
该数据集是内部数据集,包含135个结肠癌肝转移患者的腹腔volume,每个volume是512×512分辨率,单个像素大小在0.53-1.25mm,一个slice的厚度在0.5-5.01mm之间,每个像素的HU值在[-3000,1500]内,每个volume有对应的肝脏肿瘤的Ground Truth(由医学生分割,并由医学影像专家审核),另外,其中58个volume有对应的肝脏部分的Ground Truth
实验中,将其中77个只有肿瘤Ground Truth的volume作为训练集,28个有肝脏和肿瘤Ground Truth的volume作为验证集,30个有肝脏和肿瘤Ground Truth的volume作为测试集。验证集和测试集的肝脏GT是为了只在肝脏区域评估肿瘤分割结果
训练时,本文随机从每个slice中切出包含肿瘤的128×128大小的部分,训练使用RMSprop作为优化器,初始learning rate=0.001,learning rate decay=0.001,在FCN中,weight decay=0.0001,在FC-ResNet中,weight decay=0.0005
另外,本文也用同样的过程训练了FCN8,UNet,FC-ResNet,实验结果如下所示
Joint Liver Segmentation[3]
Contributions
本文提出了由两个完全相同的2D U-Net变种网络组合的端到端模型,与其他排名靠前的方法最大的不同在于,该模型无需对数据进行任何预处理,只需要普通、简单的后处理。该模型在2017 MICCAI LiTS肝脏肿瘤分割挑战赛中排名第四。
Methods
Model
本文提出的模型结构如上图所示,其中两个FCN结构完全相同,它们的输入都是2D slice,FCN 1输出肝脏部分的分割结果,FCN 2输出肝脏肿瘤的分割结果。
每个FCN的结构如上图(B)所示,FCN中包括两种block:Block A(上图(C)),Block B(上图(D)),(B)中Block中的数字代表这个Block里每层的通道数
上图中灰色C表示3×3卷积层(C后面的数字表示通道数),(C)中蓝色MP表示2×2 maxpooling,(D)中蓝色C表示步长为2的3×3卷积(实现降采样),黄色层是最近邻插值法实现的上采样层
(B)中蓝色的(降采样阶段的)Block要去掉Block中的黄色层,黄色的(上采样阶段的)Block要去掉Block中的蓝色层,底部的蓝/黄色"B 512"要保留Block B中的蓝色、黄色层
expanding path中每个block的输入是contracting path中对应block的输出与上一个block的输出之和
训练过程
本文将训练数据中的130个volume,其中115个作为训练集,另外15个作为验证集,没有对输入数据作任何特殊预处理,只是将原始的所有HU值除以255,并通过clip留下[-2,2]部分
训练时,只用包含肝脏的slice训练网络,使用随机水平/垂直翻转、随机旋转(\(\leq 15\degree\))、随机缩放(\(\leq 10\%\))、弹性变换来增强数据。先把所有slice调整分辨率至256×256大小,用learning rate=0.001,momentum=0.9,batch size=40训练200 epochs,然后在512×512原始分辨率下,以learning rate=0.0001,batch size=10来fine-tune 30 epochs,选择验证误差最小的权重作为最终参数
由于受到显存大小的制约,本文的方法是2D的,没有利用层与层之间的信息,为了解决这个问题,该模型的输出结果需要做简单的后处理:每相邻三层的模型输出输入一个3×3卷积层得到中间那一层的分割结果
获得最终分割结果
通过对一个volume的所有slice,水平翻转/垂直翻转,可以得到四个不同的volume,我们将这四个不同volume的分割结果(概率值)加起来求平均值,从而得到最终的分割结果
在肝脏分割结果中,选取最大的联通块作为肝脏区域的预测输出
在分割肿瘤时,将最终肝脏分割结果的边界膨胀20mm,保留膨胀后的区域内的肿瘤作为最终的肿瘤分割结果
实验结果
在LiTS挑战赛中,该方法排名第四:与CUHK陈浩团队(hchen)的结果相比,其Dice per case略低一些,但>50% overlap更高;hans.meine的方法相比之下虽然Dice per case与>50% overlap都要更高一些,但其方法需要用随机森林作后处理以提高准确率,而且使用了比赛没有提供的数据来训练
与其他排名靠前的方法相比,这些方法都需要以肝脏分割结果作为先验信息来实现肿瘤分割,而本文的端到端模型是以FCN 1的肝脏的高维表征,而非肝脏分割结果作为先验信息来实现肿瘤分割
Hybrid Densely Connected UNet[4]
Contributions
LiTS挑战赛中的许多排名靠前的方法,都只使用2D/2.5D的FCN,这表明2D FCN在该问题中是有效的,但它们没有充分利用层与层之间的空间信息,这极大地限制了分割精度的提升
本文发表在IEEE TMI,其提出的方法在LiTS挑战赛中稳居第一名,该模型可以有效地提取出层与层之间(使用3D DenseUNet)、层内的特征信息(使用2D DenseUNet),最终使用hybrid feature fusion (HFF)层联合优化这些特征来得到准确的肝脏与肿瘤分割结果
Methods
A. 2D DenseUNet
本文提出的模型中的2D DenseUNet仿照DenseNet-161的结构,由若干不同输出尺度的Dense Block组成
每个block中,每一层的输出会传给之后的所有层,每一层的输出通道都是\(k\),\(k\)被称为growth rate
然而原始的DenseNet-161是为图像分类任务设计的,为了适应于分割任务,本文结合了DenseNet的densely connection和UNet的long range connection,提出了2D DenseUNet:每个dense block中的densely connection保证最大程度利用每一层的特征信息,而从encoding part到decoding part的long range connection则有助于保存浅层信息。
定义\(\mathbf I\in \mathbb R^{n\times 224\times 224\times 12\times 1}\),表示一个batch的\(224\times 224\times 12\)大小的输入volume(batch size=\(n\)),最后一维(1)表示通道数,对应地,这个batch的Ground Truth为\(\mathbf Y \in \mathbb R^{n\times 224\times 224\times 12\times 1}\),其中每个元素表示对应voxel的真实label(背景、肝脏与肿瘤)
令函数\(\mathcal F\)表示从一个volume中提取出所有的相邻三层slice数据的过程,如上图所示。每相邻三层slice视为一个\(224\times 224\times 3\)大小的样本,\(\mathbf {I_{2d}}=\mathcal F(\mathbf I)\),其中\(\mathbf {I_{2d}}\in \mathbb R^{12n\times 224\times 224 \times 3}\)表示通过\(\mathcal F\),从原始volume转换而来的2D训练数据(原始的一个\(224\times 224\times 12\)大小的volume可以产生12个样本,因此\(n\)个volume可以产生\(12n\)个样本)
为方便描述,用\(\mathcal F^{-1}\)表示从\(\mathbf {I_{2d}}\)还原到\(\mathbf I\)的过程
2D DenseUNet产生肝脏与肿瘤分割结果的过程可以形式化地表示为:
其中,\(\mathbf {X_{2d}}\)是2D DenseUNet的"upsampling layer 5"的feature map,\(\hat {y_{2d}}\)是输入\(\mathbf {I_{2d}}\)对应的每个像素点属于三种类别(背景、肝脏、肿瘤)的概率
2D DenseUNet的结构如上图所示,其中每个dense block是由若干1×1 conv+3×3 conv的micro block组成的,在contracting path中,为了缩小feature map的尺寸,加入了transition layer,每个transition layer是由batch normalization + 1×1 conv + average pooling组成的
类似U-Net,expanding path中的upsampling layer是上采样(由双线性插值法实现)与来自contracting path中的相应的浅层输出concatenate的结果+3×3卷积
另外,网络中所有卷积层之前都有BN+ReLU(也就是说,每个卷积层都是BN+ReLU+Conv结构)
整个2D DenseUNet的结构如上所示,growth rate k=48,\([\ ]\times d\)表示\([\ ]\)中结构重复\(d\)次。由于网络有167层,所以称其为2D DenseUNet-167
B. H-DenseUNet
2D DenseUNet层数很深,可以学习到每个slice内的high-level的特征,但是无法利用层与层之间的空间信息
而对应的3D DenseUNet显存消耗太大,显存空间限制了它的深度,从而限制了感受野的大小
为了解决二者之间的矛盾,本文提出了H-DenseUNet来融合每个slice内的特征、slices之间的空间特征
为了融合2D和3D网络学习到的特征,首先要做的是使得二者upsampling layer5输出的feature map、最终的pixel-wise概率输出的大小(不包含最后一维通道)相同——都是\(n\times 224\times 224\times 12\)维,我们对2D DenseUNet的\(\mathbf {X_{2d}},\hat {y_{2d}}\)作如下变换:
然后,将原始volume \(\mathbf I\)与\(\hat {y_{2d}}'\) concatenate后输入3D DenseUNet,由于输入的不仅仅是原始volume,还有其中每个voxel属于背景、肝脏和肿瘤的概率,因此这大大缓解了3D DenseUNet最优化参数的负担,也提升了3D DenseUNet的学习效率
3D DenseUNet的学习过程可以形式化地表示为:
\(\mathbf {X_{3d}}\)是3D DenseUNet-65的"upsampling layer 5"输出的feature map,\(\mathbf Z\)表示从2D DenseUNet学习到的slice内的特征与3D DenseUNet学习到的slice之间的特征之和
混合特征\(\mathbf Z\)通过HFF层来联合学习、优化:
\(\mathbf H\)表示优化后的混合特征,\(\hat {y_H}\)表示根据\(f_{HFFcls}(\mathbf H;\theta_{HFFcls})\)得来的pixel-wise的属于每一类的概率
3D DenseUNet的具体结构如上图,growth rate k=32,每一部分feature map的尺寸与相对应的2D DenseUNet是一样的,不同之处在于每个dense block里的micro block重复次数是2D版本的1/3,以减小显存占用。这个网络有65个卷积层,因此称为3D DenseUNet-65,网络的其他细节与2D DenseUNet完全一样
C. 损失函数、训练与推理过程
损失函数
加权交叉熵
其中,\(\hat y\)是pixel-wise概率输出,\(\hat y_i^c\)表示voxel i属于第c类(\(c\in\{1,2,3\}\),分别代表背景、肝脏和肿瘤)的概率,\(w_i^c\)表示权重,\(y_i^c\)表示voxel i的Ground Truth(\(y_i^c=1\)表示voxel i属于第c类)
训练过程
-
1、训练一个加残差连接的2.5D UNet[5],获得肝脏区域的初步分割结果
-
2、训练2D DenseUNet,其encoder part的权重被初始化为用于物体分类任务的DenseNet的预训练权重,decoder part的权重是随机初始化的。由于decoder part的权重是随机初始化的,因此在前几轮迭代时不在网络中加入UNet的长连接,在若干轮迭代后,再加入UNet的长连接,fine tune整个模型
-
3、训练H-DenseUNet,我们之前已经以\(L(y,\hat{y_{2d}}')\)为损失函数,训练好了\(f_{2d}(\cdot),f_{2dcls}(\cdot)\),现在固定\(f_{2d}(\cdot),f_{2dcls}(\cdot)\)的参数,然后用\(L(y,\hat{y_H}')\)作为损失函数训练\(f_{3d}(\cdot),f_{HFF}(\cdot),f_{HFFcls}(\cdot)\),这三个的参数都是随机初始化的
-
4、最后,整个网络以\(L_{total}=\lambda L(y,\hat{y_{2d}}')+L(y,\hat{y_H}')\)为损失函数来整体fine-tune,其中根据实验经验有\(\lambda=0.5\)
推理过程
- 1、使用加残差连接的2.5D UNet得到肝脏的初步分割结果,作为ROI
- 2、在(1)步的ROI内,使用H-DenseUNet得到pixel-wise的预测分类概率
- 3、设定一个阈值,从而得到每个voxel的分类
- 4、对分割结果作后处理:保留最大联通块,然后去掉在肝脏区域外的肿瘤标记
Experiments and Results
A. 数据集与数据预处理
本文实验使用LiTS挑战赛数据集与3DIRCADb数据集。
在预处理过程中,首先将原始volume truncate至[-200,250]HU区间,在第一阶段(肝脏初步分割)中,将所有volume重采样至\(0.69\times 0.69\times 1.0\ \mathrm{mm}^3\)(在推理阶段也对输入的volume做同样处理)
在肿瘤分割阶段,使用原始分辨率的数据训练网络,避免重采样导致一些小肿瘤变得失真(在推理阶段也做同样处理)
B. 评价指标
LiTS Challenge数据集
-
Dice per case: 每个volume的Dice系数平均值
-
Dice global: 将所有volume合并到一起,得到的Dice系数
-
RMSE: 均方根误差
3DIRCADb数据集
- VOE: volumetric overlap error
- RVD: relative volume difference
- ASD: average symmetric surface distance
- RMSD: root mean square symmetric surface distance
- DICE: 对应于LiTS数据集中的Dice per case
C. 实现细节
- 深度学习框架:Keras
- 初始learning rate=0.01
- learning rate decay:\(lr=lr*(1-iterations/total\_iterations)^{0.9}\)
- 使用带动量的随机梯度下降
- 数据增强:随机翻转、缩放(\(\leq 20\%\))
- 硬件:NVIDIA Titan XP显卡×2
- 2D DenseUNet训练21小时,H-DenseUNet的端到端finetune过程用时9小时
- 推理阶段,每个volume的用时与其切片数量有关,在30s到200s之间
D. 实验结果分析
无预训练的3D DenseUNet,无预训练的2D DenseUNet、有预训练的2D DenseNet、有预训练的2D DenseUNet与H-DenseUNet的学习曲线如上图所示。3D DenseUNet的训练大约花费60小时,是2D DenseUNet(21小时)的三倍
Fig. 3中的几个模型与其他论文中的方法的肝脏与肿瘤分割结果如上表所示
(1)预训练模型的意义
通过比对2D DenseUNet在有/无预训练时的学习曲线与分割结果,可以发现:
- 1、预训练模型+迁移学习加快了模型的收敛速度,也使模型收敛到更小的loss值
- 2、预训练模型+迁移学习使2D DenseUNet达到更佳的分割结果
(2)2D/3D DenseUNet的比较
比对2D DenseUNet与3D DenseUNet的分割结果,可见2D版的分割结果更好,原因在于上文的2D DenseUNet较3D版层数更深,表达能力也更强,另外3D DenseUNet训练至收敛的时间也明显更长
3D DenseUNet不仅仅有显存开销过大的问题,也有无法使用预训练模型的问题
(3)UNet长跳跃连接的意义
本文还比较了2D DenseNet(不加长跳跃连接的DenseUNet)与2D DenseUNet在使用同样的预训练模型和训练策略时的学习曲线(见Fig. 3),表明UNet的长跳跃连接帮助网络收敛到更小的loss值,Tab. II中的结果也表明UNet的长跳跃连接也一定程度提升了肿瘤的分割结果
(4)特征融合(hybrid feature fusion)的意义
比较2D DenseUNet和H-DenseUNet的学习曲线,可见由于H-DenseUNet使用了训练好的2D DenseUNet,所以初始时loss很小,而hybrid feature fusion使得网络从3D DenseUNet中学到了层与层之间的空间学习,使最终loss收敛到比2D DenseUNet更小的值;而H-DenseUNet端到端的训练过程也使学到的层与层的空间信息帮助提取层内的特征
References
Christ, P. F., Elshaer, M. E. A., Ettlinger, F., Tatavarty, S., Bickel, M., Bilic, P., ... & Sommer, W. H. (2016, October). Automatic liver and lesion segmentation in CT using cascaded fully convolutional neural networks and 3D conditional random fields. In International Conference on Medical Image Computing and Computer-Assisted Intervention (pp. 415-423). Springer, Cham. ↩︎
Drozdzal, M., Chartrand, G., Vorontsov, E., Shakeri, M., Di Jorio, L., Tang, A., ... & Kadoury, S. (2018). Learning normalized inputs for iterative estimation in medical image segmentation. Medical image analysis, 44, 1-13. ↩︎
Vorontsov, E., Tang, A., Pal, C., & Kadoury, S. (2018, April). Liver lesion segmentation informed by joint liver segmentation. In Biomedical Imaging (ISBI 2018), 2018 IEEE 15th International Symposium on (pp. 1332-1335). IEEE. ↩︎
X. Li, H. Chen, X. Qi, Q. Dou, C. Fu and P. Heng, "H-DenseUNet: Hybrid Densely Connected UNet for Liver and Tumor Segmentation from CT Volumes," in IEEE Transactions on Medical Imaging. ↩︎
Han, X. (2017). Automatic liver lesion segmentation using a deep convolutional neural network method. ↩︎