生物信息 | 数据库 | 预测工具 | 数字化汇编目录
生物信息泛指发生在生命体内的所有的活动信息,是控制我们生老病死的根本原因。
要想开发一个大一统模型,那就必须对该系统的核心的方方面面有扎实的理解。
先根据初高中知识,按中心法则的上游到下游分个类,DNA、RNA、蛋白质、代谢物,最后补充表观、药物、整合、癌症。
DNA相关数据库
Human DNA序列
- 人类基因组计划
基因组功能注释
- 蛋白编码区 - Genecode
- 非编码区 - ENCODE、Roadmap
Human variant
- dbSNP
- gnomAD
- 千人基因组计划 - 10k
- haplotype - HapMap
- InDel
- CNV
- SV
Human diseases and traits variants
- GWAS Catalog
- OMIM
泛基因组
相关预测
预测未知DNA序列来源 - BLAST,如测序中没比对上的序列可能是杂菌
预测variant的功能【GWAS下游热门领域】
- 编码区 - VEP、annovar
- 非编码区 - enhancer区
表观数据库
ENCODE
Roadmap
Cistrome
相关预测
TF靶基因预测 - 做个TF ChIP-seq即可
预测SNP的表观效应,prioritize regulatory variants - DeepSEA 【热门领域】
RNA相关数据库
Human RNA序列
全长转录本
lncRNA
miRNA
可变剪切AS
基因相关数据库
调控因子
- 转录因子TF - 靶基因预测
- 可变剪切调控 - 靶exon预测
基因集
- GO
- MSigDB - GSEA
基因调控网络GRN
蛋白质相关数据库
蛋白质互作网络PPI
蛋白质序列
蛋白质结构
蛋白质功能
蛋白结构预测 AlphaFold
代谢物相关数据库
代谢物结构
代谢网络
Drug相关数据库
drugdb
整合型数据库
eQTL
- GTEx
DeepSEA【见上】
癌症数据库
TCGA
三位一体,一个蛋白编码基因的三种状态,有点宗教的意思了。