文献阅读-Predicting brain age with complex networks: From adolescence to adulthood

摘要

近些年,一些研究表明,机器学习和深度学习方法可以非常准确地预测大脑年龄。在本研究中,研究者提出了一种使用1016例(年龄范围为7-64岁)T1加权像的,基于复杂网络的方法来预测大脑年龄的模型。研究者介绍了一种人脑的结构连接模型:将T1像分割成一系列的立方体块作为网络的节点,然后计算立方体块之间的Pearson相关系数作为网络的边。通过少量且易于理解的网络中心性指标表征大脑的连通性。最后将这些指标输入到一个紧凑的深度神经网络模型来预测大脑年龄。结果表明,尽管数据数量较多,同时数据有较大的异质性,但是本研究提出的方法还是得到了准确和稳定的预测结果,同时计算效率也较高。预测年龄与实际年龄的相关性达到了0.89,预测模型的平均绝对误差为2.19年,结果与最新的结果相比,本研究的模型有较好的预测精度。在包含262名被试的独立验证数据中得到的平均绝对误差为2.52年。值得注意的是,这些被试的图像均是从不同的机器和扫描方案下得到的。本研究提出的方法只需要对影响数据进行简单的处理,包括脑组织提取和线性配准,因此可以用很小的计算成本取得稳健的结果。此外,网络模型提供了一种关于老化模式的全新视角,并且可以显示老化相关的解剖区域的特定信息。

介绍

一生中大脑会经历从发育到老化的连续过程。然而一些致病因素或神经退行性疾病都会影响大脑的老化进程,例如HIV、多发性硬化、糖尿病、阿尔茨海默病等。因此研究者提出大脑年龄差异brain gap,用来衡量大脑老化程度与生理年龄的差异,并用来诊断异常的大脑老化。


图1. 大脑老化进程(左图)和Brain gap定义(右图)。

机器学习和深度学习方法被越来越多的应用来预测大脑老化程度,即脑龄。通常有两种策略。第一种是首先对神经影像数据提取特征,之后将这些特征作为输入,并利用传统的机器学习方法,例如支持向量回归等,来预测脑龄。第二种是直接利用原始的或最小预处理的神经影像数据和深度学习方法来预测脑龄。


图2. 两种典型的建模策略

考虑到大脑作为一个整体实现各种功能。因此大脑连通性可以为相关的分析提供新的分析和理解角度。神经影像中的大脑连通性包括三种度量方式。第一种是功能连接。主要是利用不同脑区BOLD时间序列的相关来衡量。第二种是结构共变连接。这种方法是利用不同脑区之间结构影像指标的相关性定义的脑区之间的连接。第三种是纤维连接,即脑区之间的实际的物理连接。


图3. 大脑连通性的三种构建方式

复杂网络分析作为一门复杂性学科,可以很好的被用来分析通过大脑连通性构建的脑网络。相应的,在复杂网络分析中,脑区定义为节点,脑区之间的连通性定义为网络的连边。本研究假设老化会影响到大脑的局部组织,反映到复杂网络中,体现为网络中心性的改变。


图4. 复杂网络示例

被试

本研究的被试主要来自于孤独症大脑影像数据队列(ABIDE)。该研究队列中的数据来自17个不同的扫描点,并且扫描协议也不同,但所有的数据均是在3T的扫描仪获得的。使用的影像模态为T1加权像。一开始纳入了1112例数据,其中有96例因扫描质量和配准错误而排除,最终纳入研究的有1016例数据。另外,为了验证年龄预测模型的泛化能力,本研究还纳入了一个262名被试的独立验证数据集。该数据集来自两个队列:ABIDE(78例)和BNU(184例)。


表1. 被试人口学信息

方法

本研究提出的模型主要包括两个步骤:网络建模和模型训练。


图5. 网络构建及模型训练流程图

在网络构建部分。首先对T1像进行简单的预处理,包括:去颅骨、磁场矫正和线性配准。之后把影像分割成大小相等的小立方体,这里称为patch,并定义为网络的结点。将patch中的体素变换为一个向量,并计算任意两个patch向量之间的Pearson相关系数,作为网络的连边。需要说明的是,这里的patch排除了非脑组织体素个数超过整个patch所含体素个数10%的patch。通过比较发现,当patch大小为15mm、10mm和10mm时,模型表现最好。之后对用0.3的阈值对网络进行二值化。最终网络的结点数为1184,连边数约为10^4。


图6. 分割patch

模型训练阶段。首先计算网络中各结点的中心性指标,包括强度、介数和特征向量中心性。本研究主要报告采用强度训练的结果。模型使用一个有4个隐含层的前馈神经网络。每层的神经元个数分别为200、100、50和20。激活函数使用线性整流器。使用平均绝对误差MAE、均方误差RMSE和相关系数r作为指标,10折交叉验证来评估模型的表现。

另外,本研究使用Gedeon方法评估神经网络中输入结点对于输出的贡献大小。

结果

1.本研究使用的方法和模型可以准确地预测脑龄。相比起其他的方法,本研究使用的深度学习模型表现更好。


图7. 结果1

2.在独立验证集上表现相较于训练集上有所下降,但也是可以接受的。表明本研究模型有较好的泛化能力。


图8. 结果2

3.另外研究者预测了数据集中777名年龄在7到20岁的被试,发现该模型同样可以较好地预测发育阶段的大脑年龄。


图9. 结果3

4.样本量对于预测表现的影响。发现随着训练样本的增加,模型表现逐步地提高,并且表现出了幂律分布的特点。在40%前,随着样本量的增加,模型表现提高较为明显;在40%之后,模型表现提高变慢。


图10. 结果4

5.通过比较使用强度、反参与率、介数和特征向量中心性时模型的表现,发现在使用除介数之外的其他指标时,模型表现较好,相互之间没有显著差异。用介数作为输入的模型表现较差。


图11. 结果5

6.计算了输入结点对输出的重要程度,并按照从大到小的顺序排序,发现重要程度最高的结点所以在脑区分别为核外白质、丘脑、扣带、壳核和苍白球。


图12, 13. 结果6

讨论

本研究使用的模型可以利用T1影像准确地预测大脑的年龄。深度学习模型变现最好,而随机森林表现最差。本研究的结果表明了该模型在预测脑龄任务中的稳健性,同时也证明了网络模型可以很好的表征大脑的老化。但是在独立测试集上的表现差于训练集上的表现。原因可能是预测阶段必然会引入的性能下降和BNU数据只提供了整数的年龄。尽管如此,该模型在独立数据集上依然有较好的表现。尽管使用的数据有很大的异质性。表明该模型具有较高的泛化能力,可以很好的应用到没有出现的数据中。

数据的异质性、交叉验证的框架、样本量和被试年龄的范围对模型表现有较大的影响。尽管本模型表现与前人研究报告中报告的表现没有显著差异。但是考虑到本研究使用的是来自多中心的异质数据,如果使用较为同质的数据,模型表现可能会更好。
关于样本量对于模型表现的影响,本研究结果表明模型表现与样本量之间呈现出了幂律分布的关系,并且前人研究也报告了类似的结果。另外,对于数据不同质等造成的模型表现的下降,可以通过增加样本量来消除。


图14. 前人研究中模型表现与训练集大小的关系

深度学习模型被越来越多地应用来预测大脑的老化程度。典型的研究包括Peng等人在2019年发表的和2018年Cole等人发表的。本团队也在2019年实现了一个基于深度学习预测大脑年龄的模型,但本研究提出的模型表现更好。这也说明了网络视角可以提供传统建模方法不同提供的信息。

本研究发现相比其他几个中心性指标,介数作为指标预测年龄表现最差。原因可能是介数衡量的是网络整体属性在某个结点上的表现,反映的是结点与其他结点之间间接的关系。而其他几种中心性指标反映的则是结点与其他结点的直接关系。因此研究者认为局部效应较大的指标可能更好地反映大脑老化的情况。

本研究发现核外白质和丘脑等区域对于预测有最大的贡献。在前人研究中也发现这些脑区有明显的年龄效应。


图15. 前人研究中发现丘脑显著的年龄效应

参考

原文链接:https://www.sciencedirect.com/science/article/pii/S1053811920309435?via%3Dihub

posted @ 2021-03-27 21:53  海拉鲁捡垃圾  阅读(277)  评论(0编辑  收藏  举报