Ensembl突变数据描述之(一)——突变物种数据库及预测工具
以下是对Ensembl突变数据库中储存的数据的描述,对于Ensembl数据库中不同的物种,我们从各种来源(例如,dbSNP数据库)导入突变数据(SNP、CNV、等位基因频率、基因型等),导入的突变数据和等位基因经过质量控制过程来标记可疑数据。
我们将突变分成几个不同的类,并计算突变的预测结果,并且我们还创建了突变集以帮助人们从特定数据集中检索特定突变体组。
我们计算了人类每个突变在种群中的连锁不平衡。
突变数据类型
Ensembl突变数据库储存了从外部导入的数据以及就算得来的数据。
外部导入的数据(dbSNP、Sanger、DGVa、…):
碱基突变(SNP、插入、缺失、…)
结构突变(拷贝数变异、串联重复、反转、…)
检测拷贝数的变化
碱基突变和结构突变的位置
等位基因
人群
基因型
表型(例如,人类中的青光眼。)
引文(摘自dbSNP数据库提交的信息,由EPMC和UCSC执行的文本挖掘)
计算数据(预测数据页面)
储存突变数据的物种
Ensembl仅储存了以下23个物种的突变数据,但是用户依然可以在没有突变数据库的物种上使用Variant Effect Predictor VEP。
Short variant | Long variant | Genotype | Association | Prediction | ||||||
---|---|---|---|---|---|---|---|---|---|---|
Species | Sequence variant | (e!91 → e!92) | Source(s) | Structural variant | Sample | Population | Phenotype | Citation | SIFT | PolyPhen |
3.6 million+ | - | 1 source | - | - | - | - | - | - | ||
24 million+ | - | 1 source | - | - | ||||||
1.6 million+ | - | 1 source | - | - | - | - | - | |||
104 million+ | - | 1 source | - | |||||||
5.9 million+ | (+148) | 1 source | - | |||||||
6.7 million+ | - | 1 source | - | - | - | - | - | |||
1.1 million+ | - | 1 source | - | - | - | - | - | - | ||
37 million+ | 1 source | - | - | - | - | |||||
21 million+ | (+16 million) | 1 source | - | |||||||
329 million+ | (+350,000) | 6 sources | ||||||||
53 million+ | - | 1 source | - | - | - | |||||
84 million+ | - | 1 source | - | |||||||
1.1 million+ | - | 1 source | - | - | - | - | - | - | - | |
10 million+ | - | 1 source | - | - | - | - | - | - | ||
67 million+ | - | 3 sources | - | |||||||
1.3 million+ | - | 1 source | - | - | - | - | - | |||
5 million+ | - | 1 source | - | - | ||||||
263,000+ | - | 1 source | - | - | - | - | - | |||
61 million+ | - | 1 source | - | |||||||
902,000+ | - | 1 source | - | - | - | - | - | - | - | |
9,000+ | - | 1 source | - | - | - | - | - | |||
1.7 million+ | - | 1 source | - | - | - | - | - | |||
17 million+ | - | 1 source | - |
列表中对应的Ensembl版本组装序列可以在这里找到。
大多数的突变信息是从NCBI dbSNP数据库中导入的,来自HapMap Project和1000 Genomes Project等项目的数据是在提交给dbSNP数据库后即被导入。
Ensembl还包含其它来源的数据,可在浏览器配置查看这些来源的数据(例如,人)。
# 突变信息展示
基因:突变表和突变图像。例如,KCNE2基因的所有突变
转录本:群体比较,比较突变图像(用于比较不同个体或菌株序列中转录本的突变)。例如,比较不同小鼠品系中的Tmco4
转录本:序列,蛋白质:蛋白质坐标中编码变体的列表。
物理位置:详细信息区域(可以使用左侧的“配置此页面”来绘制变体)菜单允许在Ensembl数据库中显示信息以及DAS格式的外部源,例如,DGV位点。)
表型:显示与某种表型相关的变体的核型视图,例如,青光眼
# 参考资料