生信分析 | 哲学方法论
最近听了一下华大王崇志老师讲多组学分析【科技君-BGITech】,印象很深刻,很多方法论的东西觉得很有意思,没有吃透,这里再花时间好好整理一下。
华大人思想还是很深刻的,但做研究就容易过于肤浅,还是需要好好设计实验,产生好的数据才能做好分析。
为什么要搞多组学?大一统的野心
为什么生物医学大家都在玩转录组的数据,单细胞也是主要搞转录组?蛋白组(蛋白修饰组)和代谢组的数据我现在都没玩过。
- 建库测序的可靠性,转录组优于蛋白组和代谢组,但是灵敏度则相反
- 转录组处于重要的调控位置,对机制可以进行深入探讨,而蛋白组和代谢组则不行
有哪些组学
- 基因组学genomics
- 转录组学transcriptomics
- 蛋白质组学proteomics
- 翻译组学translatomics
- 微生物组学microbiomics
- 代谢组学metabolomic
- 生物组学
- 表观基因组学epigenomics - DNA表观
- 脂质组学
- 相互作用组学
- 暴露组学 - 环境因素
- 表观转录组学epitranscriptomics - RNA表观
- 糖组学
- 代谢流组学 - 代谢分子随时间变化
方法论
数据集:多样本、多组学、多条件、多时空
方法学:比较(差异)、联想(关联)、causal
标准化:尺、秤
这里可以展开一下,重点在这个“多条件”
condition是非常普遍的,可以是tissue、cell type、cell state、disease、treatment等等,也是生物医学里的核心。
在此基础之上,生信想要深度挖掘数据,最本质的无非就是调控问题,在各种condition之下,细胞里的元件和蛋白代谢物之间的调控关系是怎样的。
差异分析,看似普通无聊,其实是无论如何都无法避开的,拿到case和control的数据,你不对比能做什么?
关联分析,本质上也是一种差异分析,已经被广泛用于GWAS、eQTL等数据分析方法。
可是最终我们想要的是causal relatioship,这个则需要更fancy的分析方法,以及一些实验来验证。
测量的四个数学尺度
levels or scales of measurement
- 定类
- 定序
- 定距
- 定比
居然从数学哲学的角度来定义了我做过的单细胞分析,真的很厉害,内功提升了。
多组学关联方法
- ID转换
- 关联注释 GO KEGG
- 相似度相关性分析 共表达模块 WGCNA
- 基于知识网络的整合性表示 pathway【见文献 2016-Trans-Omics- How To Reconstruct Biochemical Networks Across Multiple ‘Omic’ Layers】
代谢通路 KEGG
蛋白网络 PPI
相关文献:
- A Quantitative Proteome Map of the Human Body