代谢组学实验、质控与分析

1.实验及质控
2.数据分析挖掘

1.实验及质控

（1）项目流程

代谢组学分析的特点：

流程长；
样品量大，项目周期长；
个体差异大；
设备不稳定性；
样品复杂，基质效应显著。
所以，质量控制是代谢组学研究基础。

项目流程
样本制备——质谱仪分析——数据预处理——定量及统计分析——定性分析——生信及后续分析

（2）非靶代谢质控

质谱仪信号波动使非靶代谢信号随时间漂移。
原因：

电喷雾喷针老化
仪器设备入口毛细管污染
前级离子导引部件污染
检测器老化
质量分析器污染

信号随时间漂移或中途设备维护会严重影响多元统计分析效果，如PCA中样品分布不均匀，存在异常值。从而引起后续分析，如筛选生物标志物失败。

对非靶代谢信号时间漂移的重新校准，改善数据分析效果：

添加QC样本（前后+每隔10样）。
使用MetNormalizer校准（基于支持向量回归算法）。

（3）靶向代谢质控

不同出峰时间，对应不同的基质效应。
基质效应可能使绝对定量不准确。
无同位素内标：分析物与内标物基质效应不同；
有同位素内标：保留时间及表面活性的微小差别，仍会使分析物与内标物响应不同。

定量准确性质控：
加标回收实验：理论添加值约等于实测增加值（80-120%）。
设备灵敏度质控：
样品平均混合质控：设备灵敏度在合理范围内，未检出确实来源于内源性分析物浓度的下降。

（4）代谢组全流程质控

样本制备：

样本收样及存储标准化管理
高效有序的样品预处理流程

质谱仪分析：

非靶信号漂移QC实验方案
靶向双QC实验方案

数据预处理：

高效的数据校准方法
Hotelling's T2筛出潜在异常点，分情况小心移除

定量及统计分析：

多元统计及单变量分析结合筛选生物标志物
加标回收实验确保定量结果准确

2.数据分析挖掘

（1）代谢组分类回顾

非靶：进行大规模、系统性研究，用于前期数据挖掘与筛选。

非靶组：通常所说的非靶代谢组学，指氨基酸类、核苷酸类、能量代谢、维生素类、神经递质类等及其衍生物。
脂质组：甘油脂类、磷酯类、鞘脂类、脂肪酸类、固醇类等。

靶向：验证非靶向分析的结果，对目标代谢物进行选择性、特异性定量与绝对定量。

非靶和靶向的样本制备、色谱体系、代谢物鉴定模式均不同。

（2）数据预处理

①数据完整性检查

保留通道值大于一半的数据
缺失值填充（10%以上填充）
-- 删除包含缺失值的变量
-- 对缺失值进行估计：KNN/PPCA/BPCA/SVD Impute
-- 固定值填充：最小值的一半
-- 按列填充：均值/中位数/最小值
过滤QC RSD>30%

②数据标准化

标准化（后面待续....）
归一化

（3）定量层面挖掘

①统计分析

单变量
多变量

②聚类分析
③共表达网络

（4）功能层面挖掘

通路分析

posted @ 2020-12-30 11:54 生物信息与育种阅读(2212) 评论(0) 编辑收藏举报

刷新页面返回顶部

生物信息与育种

生信、AI、大数据与育种相关，微信公众号：生物信息与育种