生物信息 | 数据库 | 预测工具 | 数字化汇编目录

生物信息泛指发生在生命体内的所有的活动信息,是控制我们生老病死的根本原因。

要想开发一个大一统模型,那就必须对该系统的核心的方方面面有扎实的理解。

先根据初高中知识,按中心法则的上游到下游分个类,DNA、RNA、蛋白质、代谢物,最后补充表观、药物、整合、癌症。

 

DNA相关数据库

Human DNA序列

  • 人类基因组计划

基因组功能注释

  • 蛋白编码区 - Genecode
  • 非编码区 - ENCODE、Roadmap

Human variant

  • dbSNP
  • gnomAD
  • 千人基因组计划 - 10k
  • haplotype - HapMap
  • InDel
  • CNV
  • SV

Human diseases and traits variants

  • GWAS Catalog
  • OMIM

泛基因组

 

相关预测 

预测未知DNA序列来源 - BLAST,如测序中没比对上的序列可能是杂菌

预测variant的功能【GWAS下游热门领域】

  • 编码区 - VEP、annovar
  • 非编码区 - enhancer区

 

表观数据库

ENCODE

Roadmap

Cistrome

 

相关预测

TF靶基因预测 - 做个TF ChIP-seq即可

预测SNP的表观效应,prioritize regulatory variants - DeepSEA 【热门领域】

 

RNA相关数据库

Human RNA序列

全长转录本

lncRNA

miRNA

可变剪切AS

 

 

基因相关数据库

调控因子

  • 转录因子TF - 靶基因预测 
  • 可变剪切调控 - 靶exon预测

基因集

  • GO
  • MSigDB - GSEA

基因调控网络GRN

 

蛋白质相关数据库

蛋白质互作网络PPI

蛋白质序列

蛋白质结构

蛋白质功能

 

蛋白结构预测 AlphaFold

 

代谢物相关数据库

代谢物结构

代谢网络

 

Drug相关数据库

drugdb

 

整合型数据库

eQTL

  • GTEx

DeepSEA【见上】

 

癌症数据库

TCGA

 

 

三位一体,一个蛋白编码基因的三种状态,有点宗教的意思了。

 

posted @   Life·Intelligence  阅读(509)  评论(0编辑  收藏  举报
(评论功能已被禁用)
编辑推荐:
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2017-08-06 荧光激活细胞分选( FACS)
TOP
点击右上角即可分享
微信分享提示