多模态学习之论文阅读：《PREDICTING AXILLARY LYMPH NODE METASTASIS IN EARLY BREAST CANCER USING DEEP LEARNING ON PRIMARY TUMOR BIOPSY SLIDES》

《PREDICTING AXILLARY LYMPH NODE METASTASIS IN EARLY BREAST CANCER USING DEEP LEARNING ON PRIMARY TUMOR BIOPSY SLIDES》

（一）要点

（二）步骤

训练队列840名患者，独立测试队列218名患者
使用预训练的VGG网络作为WSI特征提取器
整合了临床数据，进一步提高预测的准确度
临床数据的特征提取：临床数据经过预处理，数值型数据通过标准化处理（减去均值并缩放到单位方差），以消除数据范围和量纲的影响；类别型数据通过独热编码（One-hot encoding）转换为数值型特征，使得模型能够平等地处理不同类别的属性。

多模态特征维度匹配：由于图像特征的维度通常远大于临床特征的维度，为了将两者融合，需要使临床特征的维度与图像特征的维度相匹配。文中提到的技术是将临床特征向量复制多次。例如，如果临床特征的维度是10，而图像特征的维度是1000，那么可以将临床特征复制100次，使其维度也达到1000。
特征融合：将复制后的临床特征与图像特征在相应维度上进行拼接或连接，形成一个统一的特征向量。

通过两个全连接层构造注意力网络，将每个实例的特征通过注意力机制加权聚合，以形成对整个图像包的全局特征表示，过程中采用了softmax函数计算概率分布，使得所有实例的注意力分数之和为1。
提到注意力机制能够提供模型决策过程的可视化和解释性，具体是根据softmax后每个实例的注意力分数进行解释分析。
融合后的特征被输入到分类器中。使用交叉熵损失函数（Cross-entropy loss）来计算预测输出和实际标签之间的差异，并根据此差异更新模型参数。
训练过程也采用了一些优化策略，如通过使用余弦退火预热重启策略，论文中的模型能够在训练过程中更有效地更新参数，提高模型的泛化能力和收敛速度。

（三）提升

1. 深度学习与多实例学习结合

2. 临床数据融合

3. 年轻患者群体的优化（特别针对50岁以下患者群体进行了模型优化）

4. 性能提升：相较于仅使用临床数据的模型，该模型在独立测试队列中实现了更高的准确度

5. 区分不同转移程度：模型能够区分低度和高度ALN转移，为临床治疗提供了更细致的指导

6. 模型泛化能力：在独立测试队列中验证了模型的泛化能力，确保了模型的实用性。

（四）不足

非端到端架构：没有采用自动分割肿瘤区域的目标提取算法，仅依靠标注数据代替了ROI过程，vgg仅用于对ROI的特征处理，没有做到端到端的模型架构。
回顾性研究限制：作为一项回顾性研究，可能存在选择偏差和无法控制的混杂因素。
复制临床特征的缺陷（个人分析）：虽能够有效地解决不同来源特征维度不一致的问题，使得模型能够同时利用图像信息和临床信息进行综合分析。然而会增加数据的维度，可能需要进一步的降维处理或正则化技术来防止模型过拟合。此外，复制临床特征可能会使得模型对某些临床特征赋予了过高的权重点。

（五）心得

多实例学习（Multiple Instance Learning，MIL）是一种机器学习范式，与传统的监督学习不同，在MIL中，训练样本是由一组实例组成的"包"（bag），每个包内包含多个实例，但只有包的标签是已知的，而不是每个实例的标签。
MIL的关键优势在于不需要对图像中的每个实例进行精确标注（这在医学图像分析中尤其重要，因为手动标注既耗时又成本高昂），其能够处理和利用部分标签信息，这使得它在那些难以或昂贵地获得每个实例精确标签的领域特别有用。
在医学图像分析中，通常将一张图像或一组图像视为一个"包"（bag），图像中感兴趣的区域（如病灶、细胞或组织结构）被视为包内的"实例"（instance）。并非所有实例都有标签，只有bag的总体标签是已知的，例如，一个图像包可能被标记为“良性”或“恶性”。
实例级别的特征表示：使用卷积神经网络（CNN）等深度学习模型从每个实例中提取特征。
实例加权：通过注意力机制或其他方式为每个实例分配权重，这些权重反映了实例对于预测包标签的重要性。
bag级别预测：将加权的实例特征聚合起来，形成包的全局特征表示，并用它来预测包的标签。

posted @ 2024-08-09 14:21 Bo_hemian 阅读(132) 评论(0) 收藏举报

刷新页面返回顶部

Bo_hemian