【代谢组学】4.生物标志物分析

概念

生物标志物，即传说中的biomarker，是一类可测量的，用来表征疾病状态的物质，通常用于表征：

疾病的状态（是否为某种疾病/某种亚型）；
药物敏感性，用于用药指导；
生理状态监测。

类型

预后指标
预测疾病的预后效果（独立于治疗），如AB1-42可用于诊断老年痴呆预后。
预测型标志物
预测疾病类型/针对某种治疗的响应，如HER2、EGFR、 K-RAS等突变可用于预测肿瘤发生的几率。
药物监测标志物
对某治疗的实时评价，如血液中的CRP、 IL-6、TNFa 浓度可监控炎症的进展。

效果评价

受试者工作特征曲线（Receiver Operating Characteristic，ROC）是评估一个生物标志物的预测性能的有用的图形工具，指示一个生物标志物组区分两个群组（如实验组和对照组，疾病和健康）的能力。

如果把患病视为阳性，把健康视为阴性。敏感性（sensitivity）表示真阳性除以真阳性与假阴性之和，又称为真阳性率，如下图所示：

特异性（specificity）表示真阴性除以真阴性与假阳性之和，又称为真阴性率，如下图所示：

1-真阴性率=假阳性率，所以ROC曲线横轴是假阳性率，纵轴是真阳性率，曲线下的面积为AUC值，通常介于0.5-1之间，面积越大预测效果越好。

上图是单变量的ROC分析，针对单个代谢组分子或单组学数据。实际上，可以将多个代谢物或多个组学数据作为组合来进行预测，称之为多变量ROC分析。不同模型预测的结果也可以同时在一张图中比较。

微生物组和代谢组的ROC分析

多变量ROC分析

多变量ROC分析主要是用于探寻最佳的生物标志物组。通过选择RandomForest，SVM和PLS-DA 等多元统计分类算法，选择不同的代谢物排序组合，反复抽样的构建分类模型，获得最佳的生物标志物组。

在多元ROC分析中，选择最佳的变量组合主要是通过重复随机抽样交叉验证(CV)的算法来识别变量重要性。在每次验证中，三分之二(2/3)的样本根据VIP评分(PLSDA)、精度下降(随机森林)或加权系数(线性支持向量机)来评价每个特征的重要性。选择排名前2，3，5，10，100(Max)重要特征用来建立分类/回归模型，并在1/3的剩余样本上进行验证。

如下图：

上图是基于PLS-DA 分类方法，变量重要性依据PLS-DA分析的VIP值排序，分别选择前2个，前3个，前5个，前10个，前20个和全部变量的模型的ROC曲线和AUC值。可以看出，图中最佳的生物标志物组是基于PLS-DA分析VIP值排序的前2个代谢物组成的生物标志物组。

验证

验证上述筛选出的生物标志物组，或选择特定的生物标志物组，计算区分效果（AUC）值。可以从构建的最佳生物标志物组中进一步选择样本进行验证，也可以手动选择生物标志物组进行分析。

如上例中筛选出的2个代谢物的为最佳生物标志物组进行验证下。

图中CV表示经过100次交互验证后的ROC曲线；Holdout 表示手动选择测试集后计算得到的ROC曲线，说明该生物标志物组预测效果良好。

关于单变量和多变量ROC曲线分析的比较
多变量ROC曲线是基于多元统计(SVM、PLS-DA或随机森林)的交叉验证结果。而经典的单变量ROC曲线是基于测试集中所有数据点内所有可能的截断点的综合效果。因此由交叉验证的ROC曲线得到的AUC更适合预测，而单变量ROC计算的AUC往往容易过拟合。换句话说，单变量ROC可以被看作是特征的区分“潜力”的一个指标，而不是它的实际表现。

分析工具

几个可以进行ROC分析的R包。

MetaboAnalyst也具有相应的分析模块。

Ref:
http://interact.majorbio.com/article/view/talk_id/345

posted @ 2020-01-02 22:35 生物信息与育种阅读(6334) 评论(0) 编辑收藏举报

刷新页面返回顶部

生物信息与育种

生信、AI、大数据与育种相关，微信公众号：生物信息与育种

【代谢组学】4.生物标志物分析

概念

类型

效果评价

多变量ROC分析

验证

分析工具

公告