代谢组数据分析方法
今天归纳一下代谢组数据分析方法
-
峰检测:识别原始数据中的代谢物的色谱峰,这些峰用于定量.现在有很多方法进行峰检测,如Tautenhahn开发centWave,其采用小波变换的原理识别色谱峰,而由Conley等人开发的Massifquant采用卡尔曼滤波器(Kalman filter)的识别色谱峰。
-
峰对齐:代谢组需要比较不同样本的相同代谢物的相对浓度,但是在色谱分离过程中会有保留时间偏移,即同一代谢物在不同样本中保留时间不同,这就需要进行峰对齐来对保留时间矫正.
-
填补空缺:当代谢物没有达到检测器的最低检测值时,代谢物会出现缺失值.不同软件采用不同的方法处理缺失值.XCMS使用强制积分的方法,依据缺失代谢物的m/z,对其保留时间范围内的背景进行积分.
-
离子注释:因为源内裂解,同位素,加合离子等原因.一个代谢物会产生多个质谱峰,这样会对后面的代谢物的鉴定和多元统计分析有很大的影响.好消息是:虽然产生多个质谱峰但是它们在色谱上面的保留时间和流出曲线非常相似.可以配合离子色谱图来分辨哪些质谱峰来源于同一个代谢物.
-
代谢物的鉴定:因为代谢物原子组成非常复杂,所以有很大的挑战.可以根据代谢物的精确分子质量,保留时间,碎片离子和二级质谱等信息来确认
-
统计分析:
- 单变量:anova,t-test,使用Kolmogorov-Smirnov正态性检验或方差齐性检验.当数据不符合正态分布时,可以使用Wilcoxon秩和检验或Kruskal-Waillis检验.
- 多变量:
- 非监督方法:PCA 层次聚类 自组织特征映射模型
- 监督方法:这时需要对分组进行分类标记,这是就可以建立模型用于数据分类和预测了.常见的有:偏最小二乘回归(PLSR),偏最小二乘-判别分析(partial least squares-discriminant analysis)和支持向量机(SVM).
-
代谢通路与代谢网络分析:
- 代谢通路:Metaboanalyst
- 代谢网络:跟代谢通路分析不同,节点与节点之间是相关程度,,而不是酶.