代谢组学实验、质控与分析

1.实验及质控

(1)项目流程

代谢组学分析的特点:

  • 流程长;
  • 样品量大,项目周期长;
  • 个体差异大;
  • 设备不稳定性;
  • 样品复杂,基质效应显著。
    所以,质量控制是代谢组学研究基础。

项目流程
样本制备——质谱仪分析——数据预处理——定量及统计分析——定性分析——生信及后续分析

(2)非靶代谢质控

质谱仪信号波动使非靶代谢信号随时间漂移。
原因:

  • 电喷雾喷针老化
  • 仪器设备入口毛细管污染
  • 前级离子导引部件污染
  • 检测器老化
  • 质量分析器污染

信号随时间漂移或中途设备维护会严重影响多元统计分析效果,如PCA中样品分布不均匀,存在异常值。从而引起后续分析,如筛选生物标志物失败。

对非靶代谢信号时间漂移的重新校准,改善数据分析效果:

  • 添加QC样本(前后+每隔10样)。
  • 使用MetNormalizer校准(基于支持向量回归算法)。

(3)靶向代谢质控

不同出峰时间,对应不同的基质效应。
基质效应可能使绝对定量不准确。
无同位素内标:分析物与内标物基质效应不同;
有同位素内标:保留时间及表面活性的微小差别,仍会使分析物与内标物响应不同。

定量准确性质控:
加标回收实验:理论添加值约等于实测增加值(80-120%)。
设备灵敏度质控:
样品平均混合质控:设备灵敏度在合理范围内,未检出确实来源于内源性分析物浓度的下降。

(4)代谢组全流程质控

样本制备:

  • 样本收样及存储标准化管理
  • 高效有序的样品预处理流程

质谱仪分析:

  • 非靶信号漂移QC实验方案
  • 靶向双QC实验方案

数据预处理:

  • 高效的数据校准方法
  • Hotelling's T2筛出潜在异常点,分情况小心移除

定量及统计分析:

  • 多元统计及单变量分析结合筛选生物标志物
  • 加标回收实验确保定量结果准确

2.数据分析挖掘

(1)代谢组分类回顾

非靶:进行大规模、系统性研究,用于前期数据挖掘与筛选。

  • 非靶组:通常所说的非靶代谢组学,指氨基酸类、核苷酸类、能量代谢、维生素类、神经递质类等及其衍生物。
  • 脂质组:甘油脂类、磷酯类、鞘脂类、脂肪酸类、固醇类等。

靶向:验证非靶向分析的结果,对目标代谢物进行选择性、特异性定量与绝对定量。

非靶和靶向的样本制备、色谱体系、代谢物鉴定模式均不同。

(2)数据预处理

①数据完整性检查

  • 保留通道值大于一半的数据
  • 缺失值填充(10%以上填充)
    -- 删除包含缺失值的变量
    -- 对缺失值进行估计:KNN/PPCA/BPCA/SVD Impute
    -- 固定值填充:最小值的一半
    -- 按列填充:均值/中位数/最小值
  • 过滤QC RSD>30%

②数据标准化

  • 标准化(后面待续....)
  • 归一化

(3)定量层面挖掘

①统计分析

  • 单变量
  • 多变量

②聚类分析
③共表达网络

(4)功能层面挖掘

通路分析

posted @ 2020-12-30 11:54  生物信息与育种  阅读(2113)  评论(0编辑  收藏  举报