咸鱼想翻身~

DeepLung: Deep 3D Dual Path Nets for Automated Pulmonary Nodule Detection and Classification

 

来源:IEEE WACV 2018

1、解决了什么问题?

提出了一个全自动肺部CT癌症诊断系统-DeepLung。

2、采用了什么方法?

在深肺系统中,首先通过结节检测子网检测候选结节,然后通过分类子网进行结节诊断。所以,DeepLung包括两部分:

  结节检测(识别候选结节位置)

  分类(将候选结节分类为良性或恶性)

考虑到肺部CT数据的3D特性和双路径网络(DPN)的紧凑性,设计了两个深度3D DPN分别用于结节检测和分类。具体来说,具体地说,设计了一个3D Faster Regions with Convolutional Neural Net(R-CNN)用于结节检测,该区域采用3D双路径块和U-Net型编解码结构,有效地学习结节特征。对于结节分类,提出一个带3D双路径网络特征的梯度提升机(GBM)。

为了充分利用三维CT图像,分别设计了两个用于结节检测和分类的deep 3D ConvNets。由于3D-ConvNet包含的参数太多,并且很难在相对较小的公共肺部CT数据集上进行训练,因此我们采用3D双路径网络作为神经网络结构,因为DPN使用的参数较少,并且比残差网络获得更好的性能。具体来说,受快速R-CNN用于目标检测的有效性的启发,我们提出了基于3D双路径网络和U-net-like编解码器结构的3D-Faster R-CNN用于结节检测,以及用于结节分类的deep-3D双路径网络。

3、数据集:

  LIDC-IDRI数据集:包含888个低剂量肺CT。

  LUNA16数据集:包含1018个低剂量肺CT。

LUNA16数据集是最大的公共可用肺结节数据集LIDC-IDRI的子集。LUNA16数据集只有检测注释,而LIDC-IDRI几乎包含了低剂量肺CT的所有相关信息,包括几位医生对结节大小、位置、诊断结果、结节纹理、结节边缘等信息的注释。LUNA16数据集从LIDC-IDRI数据集中删除切片厚度大于3mm、切片间距不一致或缺少切片的CT,并明确给出数据集的根据患者级别的10倍交叉验证分割。

4、网络模型

 

 

 

 

图 1 Deep Lung的框架

DeepLung首先采用3D更快的R-CNN生成候选结节。然后利用deep-3D-DPN从检测到的和裁剪的结节中提取深层特征。最后,利用深度特征、检测到的结节大小和原始像素的GBM进行分类。

①  双路径连接

 

 

 

图 2 双路径连接

双路径连接它既受益于残差学习的优点,也受益于从网络结构设计的Dense connection。

  Residual learning的捷径连接:消除超深网络中梯度消失现象的有效方法。从学习特征共享的角度来看,残差学习可以实现特征重用。

  Dense connection:从学习特征共享的角度来看,有利于发现新特征。另外,由于不需要重新学习冗余的特征映射,密集连接网络的参数比残差学习少。

双路径连接的假设是被利用的特征中可能存在一些冗余。双路径连接使用部分特征映射进行密集连接,部分特征映射用于剩余学习。

实现方法:

双路径连接将其特征分成两部分。一部分F(x)[d : ]用于残差学习,另一部分F(x)[ : d ]用于密集连接。这里d是超参数,用来决定要利用多少新特征。双路径连接可以表示为,其中y是双路径连接的特征,G是ReLU激活函数,F是卷积层函数,x是双路径连接块的输入。双路径连接将两种高级框架的优势结合在一起,即特征重用的残差学习和挖掘新特征的密集连接,该结构在ImageNet数据集上取得了成功。由于其紧凑性和有效性,我们设计了基于3D DPN的深度3D神经网络。

②  3D Faster R-CNN with Deep 3D Dual Path Net for Nodule Detection

 

图 3 具有类似UNet的编码解码结构和3D双路径块的3D Faster R-CNN。

  输入:从3D重建CT图像中裁剪出来的,像素大小为96×96×96。

  编码器:编码器子网设计了26层三维双路径网络。在第一个最大池之前,使用两个卷积层来生成特征。之后,在编码器子网中采用了8个双路径块。

  解码器:特征映射通过反卷积层和双路径块进行处理,与编码器网络中的相应层级联。然后在第二层到最后一层中使用一个具有丢失(丢失概率为0.5)的卷积层。在最后一层,基于结节尺寸分布设计了5、10、20三个anchor,供直径参考。

  Anchor:对于每个anchor,损失函数中有5个部分,当前边框是否为结节的分类损失,结节坐标x、y、z和结节大小d的回归损失。如果anchor和ground truth边框的交并比(IoU)大于0.5,我们将其视为正anchor()。另一方面,如果一个anchor与所有ground truth边框的IoU都小于0.02,则作为负anchor()。The anchor i的多任务损失函数定义为:

 

其中是当前anchor i 预测为结节的概率,是对应的结节位置坐标预测:

 

式中为原始空间中预测的结节坐标和直径,为锚i的坐标和直径。对于ground truth nodule位置,定义为:

 

其中是ground truth nodule的坐标和直径,设为0.5。对于,使用了二进制交叉熵损失函数,对于,使用了平滑L1回归损失函数。

③  Gradient Boosting Machine with 3D Dual Path Net Feature for Nodule Classification

 

 

 

 

图 4 结节分类子网结构

对于CT数据,先进的方法应能有效地提取3D体积特征。在图4中,我们设计了一个用于三维CT肺结节分类的3D Deep Dual Path网络。我们使用双模块进行检测和分类的主要原因是,将结节分为良性和恶性需要系统学习更精细的特征,这可以通过只关注结节来实现。此外,它允许在最终分类中引入额外的特征。

  输入:以预测的结节位置为中心,将CT数据大小裁剪为32×32×32。

  特征提取:利用卷积层进行特征提取。使用30个三维双路径块来学习更高层次的特征。

  良恶性分类:三维平均池和二元logistic回归层用于良恶性诊断。

3D Deep Dual Path网络可以直接作为结节诊断的分类器,也可以用来学习有效的特征。通过拼接学习到的深度三维DPN特征(最后一层(2560维))、结节大小和原始三维裁剪结节像素来构造特征。给定完整有效的特征,GBM是构建高级分类器的极好方法。

5、实现及性能评价标准

先进的计算机辅助诊断系统(CADs)期望在保持低假阳性率的同时具有较高的灵敏度。

我们结合GBM分类器验证了将结节大小与原始三维裁剪结节像素相结合的特征,获得了86.12%的平均测试准确率。最后,我们利用所构造的特征,使用GBM来获得最佳的诊断性能。

①  检测器

在LUNA16数据集上训练和评估检测器,然后使用给定的患者级别划分进行10次交叉验证。

 

 

 

 

图 5 与每次扫描的假阳性相关的敏感度(召回)率

评估指标:FROC是每次扫描假阳性的平均次数为0.125、0.25、0.5、1、2、4、8时的平均召回率,这是LUNA16数据集的官方评估指标。

在测试阶段,我们使用检测概率阈值为-2(sigmoid函数之前),其次是NMS,IoU阈值为0.1。

3D Res18 Faster R-CNN的FROC(在误报为0.125、0.25、0.5、1、2、4、8时的平均召回率)为83.4%,而只有3D Res18 Faster R-CNN 的1/4个参数的3D DPN26 Faster R-CNN的FROC为84.2%。3D Res18 Faster R-CNN的总召回率为94.6%,而3D-DPN26-Faster R-CNN的召回率为95.8%。

②  分类器

表 1 结节分类性能

在LIDC-IDRI数据集上验证了DeepLung系统的结节分类性能,使用LUNA16的分割原理,10倍的患者水平交叉验证。结节1004个,阳性450个。

Epoch:1050。

学习率:初始学习率为0.01,在525 Epoch后下降到0.001,最后在840 Epoch下降到0.0001。

测试集:由于训练时间和资源的限制,我们采用1、2、3、4、5进行测试,最终的性能是五个测试子集的平均表现。

结果:从表1可以看出,深度3D DPN比多尺度CNN,Vanilla 3D CNN和多裁剪CNN具有更好的性能,因为3D结构的强大功能和深度双路径网络。由于GBM的优越分类性能,带结节尺寸和裁剪尺寸为16×16×16的原始结节像素的GBM实现了与多尺度CNN相当的性能。最后,我们使用深度3D双路网络特征,3D Faster R-CNN检测到的结节大小和原始结节像素来构建特征,并获得90.44%的准确度,这表明了深度3D双路网络特征的有效性。

③   与经验丰富的医生在他们各自置信结节比较

 

 

 

我们将我们的预测与四名“模拟”经验丰富的医生的各自置信结节进行比较(个体得分不为3)。注意,约1/3标注是3。

④   Kappa系数

使用Kappa系数(一种评估两个评分者之间一致性的常用方法)来检验DeepLung与地面真相之间的一致性。DeepLung的kappa系数为85.07%,明显优于医生的平均kappa系数(81.58%)。

⑤  LL

为了评估包括边界结节(标记为3,良恶性不确定)在内的所有结节的表现,我们从有经验的医生的注释中随机抽取100次作为100个“模拟”医生,计算了DeepLung和医生诊断的对数似然(LL)评分。医生平均LL值为-2.563,标准差为0.23。相比之下,DeepLung的LL值为-1.515,表明DeepLung在标准差上性能优于医生平均的平均性能4.48倍,具有高度的统计学意义。

⑥  对边界性结节分类

 

 

重要的是要分析医生不能最终分类的边界结节预测的统计特性。有趣的是,64.98%的交界性结节在表3中被划分为恶性(概率>0.9)或良性(概率<0.1)。DeepLung将大多数交界性结节分类为恶性可能性接近于零或接近1,显示其作为辅助诊断工具的潜力。

6、关键技术

①全自动的CADs系统

利用深度学习,将结节检测与结节分类相结合,建立一个完整的肺癌CT诊断系统,实现肺癌CT全自动诊断的研究较少。有必要探索一个完整的肺癌CT诊断系统,了解目前的深度学习技术与经验丰富的医生有多大的差距。

②区域建议生成

传统的方法通常需要人工设计特征,如形态特征、体素聚类和像素阈值。最近,deep ConvNets,例如更快的R-CNN和fully ConvNets被用来生成候选边界框。

③去除假阳性结节

传统方法通常使用更先进的方法或更复杂的特征,例如精心设计的纹理特征,来去除假阳性结节。由于CT数据的3D性质以及快速R-CNN在二维自然图像中用于目标检测的有效性,设计了一种3D Faster R-CNN用于结节检测,并使用3D卷积核和U-net-like编解码器结构来有效地学习潜在特征。

④3D Dual Path网络

由于3D-ConvNet参数太多,难以在相对较小的公共肺部CT数据集上进行训练,由于deep-dual-path网络比deep-resultant-network更紧凑,同时提供更好的性能,因此采用3D-dual-path网络作为构建块。

⑤GBM

为了使具有完整特征的GBM具有更高的性能,我们采用不同粒度的GBM来诊断结节,从原始像素、DPN特征到诸如结节大小等全局特征。

7、参数设置

整体CT图像→几个96×96×96的小块→检测器→裁剪为32×32×32(以检测中心为中心)→3D DPN(特征提取)→GBM(深部3D双路径特征、结节大小和原始结节CT像素)

  检测器:只保留检测概率大于0.12的detected boxes(sigmoid函数前阈值为-2)。在此基础上,采用基于检测概率的非最大抑制(NMS)方法,the intersectionover union (IoU)交并比阈值为0.1。在这里,我们希望不要错过太多的ground truth结节。

  GBM:对于像素特征,我们使用16×16×16的裁剪尺寸,中心为实验中检测到的结节中心。

  分类:对于患者水平的诊断,如果检测到的结节之一是阳性(癌症),则患者被归类为患有癌症。相反,如果所有检测到的结节均为阴性,则该患者被认为是非癌症。

  周期:在训练中,每个模型共使用150个周期

  优化算法:随机梯度下降优化,动量为0.9。

  批处理大小:参数受GPU内存的限制。我们使用1×10-4的权重衰减。

  初始学习率:0.01,历元总数的一半后为0.001,120个历元后为0.0001。

8、对比算法

 

 

 

图 6 3D Res18 Faster R-CNN

为了验证所提出的用于检测的deep 3D双路径网络的性能,我们使用deep 3D残差网络作为比较。这个基线网络的编码器部分是一个18层的Deep 3D残差网络,它是2D Res18网络的扩展。请注意,3D Res18 Faster R-CNN包含5.4M的可训练参数,而3D DPN26 Faster R-CNN采用1.4M的可训练参数,仅为3D Res18 Faster R-CNN的1/4倍。

9、预处理

输入CT图像采用了三个自动预处理步骤。首先,我们将原始数据裁剪为[-1200,600]。其次,我们将值范围线性转换到[0,1]。最后,我们使用LUNA16给出的分割ground-truth并删除背景

10、数据扩充

检测器:通过随机翻转图像来扩充数据集,并使用0.75到1.25之间的裁剪比例。

分类器:训练时,先将大小为32×32×32的结节垫成36×36×36,从填充的数据中随机裁剪32×32×32,水平翻转、垂直翻转、z轴翻转数据进行增强,将4×4×4斑块随机置零,用训练数据的均值和标准差对数据进行归一化处理。

11、优点

①参数量较小:3D Res18 Faster R-CNN包含5.4M可训练参数,而3D DPN26 Faster R-CNN使用1.4M可训练参数,这仅是3D Res18 Faster R-CNN的1/4。

②网络结构紧凑,性能较好:提出了两种基于3D双路径网络的深度3D卷积网络,这种网络更加紧凑,可以产生比残差网络更好的性能。

③充分利用CT的三维特性。

 

12、可视化

 

 

 

图 7 nodule ground truths和检测结果的中央切片可视化

 

 

图 8测试折叠1上结节分类结果的中央切片可视化。我们选择的结节是由DeepLung预测的,但一些医生的注释不正确。

从图8可以看出,医生错误地诊断了一些结节。原因可能是人类不适合处理低信噪比的三维CT数据。也许有些医生找不到一些薄弱的不规则边界,或者错误地认为某些正常组织是结节边界,从而导致假阴性或假阳性。此外,医生自身的内在偏见可能会影响他/她预测这些扫描的自信程度,而他/她每次只能观察一个切片。基于机器学习的方法可以克服这些局限性,能够在一次利用所有输入切片的同时学习复杂的规则和高维特征。从这个角度来看,深肺对医生做出一致和准确的诊断可能有很大的帮助。

posted on 2020-08-16 19:10  咸鱼想翻身~  阅读(598)  评论(0编辑  收藏  举报

导航