End to End lung cancer screening with three-dimensional deep learning on low-dose chest computed tomography
作者:谷歌 AI
来源:Nature Medicine 2019
一、解决了什么问题
使用低剂量计算机断层扫描的肺癌筛查已经被证明可以降低20-43%的死亡率,当前CT图像肺结节识别的挑战:类内差异性,高假阳性率和假阴性率。
方法:提出一种利用当前和之前的计算机断层扫描值来预测肺癌的风险的深度学习算法。
结果:当先前的计算机断层成像不可用时,我们的模型比所有六位放射科医生表现更好,假阳性和假阴性的绝对减少率分别为11%和5%。在先前的计算机断层成像可用的情况下,模型的性能与相同的放射科医生不相上下。
这为通过计算机辅助和自动化优化筛选过程创造了机会。虽然绝大多数患者仍然没有进行筛查,但我们展示了深度学习模型在提高全球肺癌筛查准确性、一致性和采用率(adoption)方面的潜力。
CT肺结节筛查的发展历史(在写论文时可参考):
² 2013年:美国预防服务工作队根据国家肺癌筛查试验(NLST)报告的死亡率提高,建议在高危人群中进行低剂量CT肺癌筛查。
² 2014年:美国放射学学会发布了针对LDCT肺癌筛查的Lung-RADS指南,以标准化放射科医生的图像解释,并制定管理建议。评估基于各种图像发现,但主要是结节大小、密度和生长。在筛选部位,Lung-RADS和其他模型(如PanCan)来决定恶性肿瘤风险等级,从而为临床管理提供建议。
提高肺癌筛查的敏感性和特异性的目的:假阴性和假阳性引起的漏诊、迟诊,从而导致的不必要的活检程序的高临床和经济成本。
Lung-RADS的限制:一致性(得到改善),连续的类内差异性,综合影像学表现的不完整特征。(不太懂这里的一致性是指的什么)
采用深度学习方法的优点:自动化更复杂的图像分析、检测细微的整体成像结果和统一图像评估方法。
注意CADe与CADx的区别:
² 结节检测系统:目的是提高放射科医生识别结节的敏感性,同时最大限度地降低特异性成本,从而归入计算机辅助检测(CADe)的范畴。这种方法突出小结节,将恶性肿瘤风险评估和临床决策留给临床医生。
² 计算机辅助诊断(CADx):包括对预先识别病变的诊断支持,其主要目的是提高特异性。
二、网络模型
克服以往的CADe和CADx方法的局限性,我们的目标是建立一个端到端的方法来单独使用输入的CT数据来执行定位和肺癌风险分类任务。总的来说,该模型被训练成获取整个CT容积,并自动生成一个评分,预测患者是否需要在同一年接受癌症诊断。包括对LDCT容积的全面评估、focus on regions of concern、先前图像(可用时)的对比以及calibration against biopsy-confirmed outcomes(根据活检确认的结果进行校准)。学习这个流程框架
图 1 总体建模框架。对于每个患者,该模型使用一个当前的LDCT volume和一个先前的LDCT volume作为输入。然后,该模型分析可疑和volumetric ROI以及整个LDCT volume,并输出该病例的总体恶性预测、风险评分(LUMAS)和预测癌结节的定位。
该模型的三个关键组成部分:
(1) Full-volume model:构建3D CNN模型对整个CT进行端到端的分析。
(2) Cancer ROI detection model:训练了一个CNN ROI 检测模型来检测CT中的3D候选肿瘤区域。
(3) CNN癌症风险预测模型:根据癌症ROI检测模型和全体积模型的输出进行操作。
三、关键技术
图 2 端到端癌症风险预测模型的结构说明。该模型被训练成包含整个CT容积,并自动生成预测癌症诊断的分数。在所有情况下,首先将输入体积重采样为两个不同的固定体素大小,如图所示。每个输入量使用两个ROI检测,从中提取特征,通过一个完全连接的神经网络得出每个ROI的预测分数。当先验信息不可用时,先前的ROI被填充到所有的零。
整个模型包含几个部分:
² 肺部分割,用TensorFlow目标检测API在LUNA数据集上训练一个肺部分割Mask-RCNN,产生肺分割掩模并对齐。(每个病例的输入体积是该病例的整个三维CT容积,包括肺、纵隔、心脏、胸壁等)(学习这个说明方法)
² 癌症ROI检测,这是在1.4×0.7mm2(间距,像素大小)体素大小的体积上训练的。构建3D RetinaNet(删除特征金字塔网络(feature pyramid network)),找出病灶区域。(这个网络最近常看见,并查看多次引用的这篇论文Lin, T.-Y ., Goyal, P ., Girshick, R., He, K. & Dollar, P . Focal loss for dense object detection. IEEE Trans. Pattern Anal. Mach. Intell. Preprint at https://doi.org/10.1109/TPAMI.2018.2858826 (2018))
² 全体积模型,一个端到端的卷积模型,3D-inflated Inception V1在1.5 mm3体素大小的体积上进行训练,以预测1年内的癌症,从ImageNet训练的检查点进行微调。这个癌症预测模型被训练成focal loss,试图减轻阳性样本的稀少性。我们训练模型来预测癌症的概率,然后使用最后一层预测最终概率,它包含1024个单元。我们将这1024个数字作为这个模型的输出,并在以后将它们用作特征。
² 癌症风险预测模型,提取3D特征,生成最终预测结果。它被训练成单个卷积神经网络,在所有检测到的ROI中共享参数。每个ROI都通过这个网络来预测其各自的恶性程度评分。首先,从检测到的ROI中提取特征。在第二阶段模型中,来自全体积模型的特征被附加到每个检测到的ROI的最后一层,因此所有的预测都依赖于来自整个CT体积的nodule-level的局部信息和全局上下文。这个癌症预测模型也被训练成focal loss,试图减轻阳性样本的稀少性。
该模型的特点:
在技术上,以原始分辨率对全体积模型进行训练是不可行的。为了给每个候选区域提供这种全局背景,我们训练了一个降低分辨率的全容积模型来预测癌症诊断,然后将从该模型提取的特征与从每个候选区域提取的特征相结合。
其中的一些专业术语:
Volume:指完整的CT volume(一整套轴向图像)。
Bounding box: 边界框是一个紧紧包含恶性肿瘤的矩形三维子体积。我们的检测模型旨在预测这些边界框。
ROI: ROI是一个固定大小的,包含恶性肿瘤和周围环境的3D子体积。一旦我们从我们的检测模型有了边界框,我们在每个边界框周围取一个固定的90-mm3区域。
LUMAS(lung malignancy scores):肺部恶性肿瘤评估
四、数据集
这些模型主要是在NLST数据集的较小部分上进行训练和测试的,没有评估优先级的使用,也没有报告定位指标(localization metrics)。我们假设在我们的癌症风险预测模型中考虑更大的背景(候选区域周围的ROI更大、全三维体积评估和优先级)以及对NLST的更大部分进行培训可以获得更好的绩效。
(1)NLST数据集:14851名患者的42290个CT病例组成,其中638例在1年的随访期内发生了活检证实的癌症。
患者被随机分为三组:training集(70%)、tuning集(15%)和test集(15%),三个组的确诊患者百分比分别为3.9%、4.5%和3.7%。
https://biometry.nci.nih.gov/cdas/learn/nlst/images/
(2)LUNA16
https://luna16.grand-challenge.org/data
(3)LIDC-IDRI
https://wiki.cancerimagingarchive.net/display/Public/LIDC-IDRI
图 3 NLST标准图。a、 描述我们分析中排除的情况的图表。b、 描述NCI在选择要从NLST发布的图像时所做的排除。
五、性能指标及结果
为了与放射科医生进行比较,我们在三个不同的截止点对模型的预测进行阈值化,得到四个不同的肺部恶性肿瘤评分(LUMAS)。这些阈值的选择是为了使LUMAS评分和Lung-RADS buckets中 1/2, 3+, 4A+ and 4B/X 在tuning集上相对应。
对比算法:与六位放射性医生进行比较
图 4 Results from the reader study—lung cancer screening on a single CT volume.
LUMAS buckets 指的是符合Lung-RADS中3+, 4A+ and 4B/X肺癌预测概率的操作点。
图a:模型(蓝线)与普通放射科医生在使用单个CT容积的不同Lung-RADS类别(交叉)中的表现。交叉的长度表示置信区间(CI)。
图b:图a中蓝色突出显示的区域在b中放大,以显示6名放射科医生在不同Lung-RADS risk buckets中的表现。
图c:模型和普通放射科医生的敏感性比较。
图d:模型与普通放射科医生的特异性比较。
图e:命中率定位分析用于测量模型正确定位癌变的频率。
敏感性和特异性分析均采用507例患者的n=507进行,P值采用双侧置换试验计算,数据随机重采样10000次。
图 5 Results from the reader study—lung cancer screening using current and prior CT volume.
敏感性和特异性分析均采用308例患者的n=308 进行,P值采用双侧置换试验计算,数据随机重采样10000。
六、缺点及展望
(1) 虽然与放射科医生的比较研究比先前发表的研究大,但它们仍然局限于NLST数据集的回顾性数据。
(2) 相对缺乏可获得的癌症预后信息(cancer outcomes information)。尽管如此,我们的多阶段建模方法能够利用来自筛查人群的数据的自然分布,仅使用398个癌症阳性样本进行培训。由于在测试过程中只使用了两个数据集,因此对于可归纳性得出的结论是有限的。进一步的研究将需要针对筛选数据参数的更广泛的可变性进行测试和调整,以确保通用性。
(3) 虽然提出了一种为模型选择操作点的方法,但这主要是为了比较读者和模型的性能。必须强调的是,选择用于临床实践的操作点仍然是一个持续的研究领域,可能涉及成本和结果的分析,以便在敏感性和特异性之间进行适当的权衡。
(4) 随着筛查项目的不断扩大,需要更有力的回顾性和前瞻性研究来确保临床适用性。在未来的研究中,我们的目标是探索不同的方法来提供模型输出评估、恶性肿瘤风险计算和定位。为了确定潜在影响,还需要将绩效改进与记录在案的临床结果和卫生系统成本联系起来。另一个机会是将类似的建模技术应用于常规CT诊断,帮助发现和处理偶发肺结节。
(5) 除了在肺癌筛查中的应用外,本研究中应用的深度学习技术与其他类型的三维成像数据具有相当大的相关性。。例如,这种方法对于磁共振成像、PET或其他类型的体积或多视图问题的研究有希望。