Database in BioInformation
很多数据库都可以通过下面的网站下载:http://annovar.openbioinformatics.org/en/latest/user-guide/download/
一、NHLBI-ESP(Exome Sequencing Project)
国家心肺和血液研究所外显子组测序计划(NHLBI-ESP project),这个计划中的esp6500si_all数据库中包含SNP变异、InDel变异和Y染色体上的变异的所有个体中,突变碱基的等位基因频率,通过注释,我们可以了解到突变在ESP6500的变异频率,并过滤突变频率大于0.01的数据。
下载地址:http://evs.gs.washington.edu/EVS/
注意:Have any of the ESP variants been validated by Sanger sequencing?
Large scale validation of the variants was not performed. However, sequencing validation of a small number of singleton (~200) and high frequency SNP calls (~800) was performed and reported in Tennessen et. al. as published in Science online May 21, 2012 (PMID: 22604720). None of the INDEL calls was validated, In general, the INDEL calls are less robust than the SNP calls and have a higher false positive rate. When applying the ESP data to research studies, users are advised to keep this difference in mind.
所述上述数据库,并不是每个位点都经过了sanger验证。
下载地址:http://www.openbioinformatics.org/annovar/download/hg19_esp6500siv2_all.txt.gz
二、ExAC
ExAC数据库的全称是(the Exome Aggregation Consortium,外显子组整合数据库),包含了六万多人的外显子变异情况,这些个体来源于大量疾病研究和群体遗传学研究,能够用做严重疾病研究的参考数据库。目前ExAC数据库中包括ALL,AFR(African),AMR(Admixed American),EAS(East Asian),FIN(Finnish),NFE(Non-finnish European),OTH(other),SAS(South Asian)
下载方式:perl annotate_variation.pl -downdb -webfrom annovar -buildver hg19 exac03 ./
下载地址:http://www.openbioinformatics.org/annovar/download/hg19_exac03.txt.gz
三、KAVIAR
Kaviar (~Known VARiants) is a compilation of SNVs, indels, and complex variants observed in humans, designed to facilitate testing for the novelty and frequency of observed variants.
下载方式:perl annotate_variation.pl -downdb -webfrom annovar -buildver hg19 kaviar_20150923 ./
下载地址:http://www.openbioinformatics.org/annovar/download/hg19_kaviar_20150923.txt.gz
四、1000 Genomes project
下载方式:perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar 1000g2015aug ./
下载地址:http://www.openbioinformatics.org/annovar/download/hg19_1000g2015aug.zip
五、ensembl
Ensemble( ensembl.org网站是常用真核生物参考基因组来源之一 )能够对人类基因自动进行注释,包括人类,小鼠,斑马鱼,猪和大鼠等
Ensembl是一项生物信息学研究计划,旨在开发种能够对真核生物基因组进行自动注释(automatic annotation)并加以维护的软件系统。该计划由英国Sanger研究所Wellcome基金会及欧洲分子生物学实验室所属分部欧洲生物信息学研究所共同协作运营。
Ensembl与NCBI的NCBI Map Viewer和UCSC是最为常用基因组检索数据库,与NCBI Map Viewer和UCSC最大区别表现在以下5点:
a.Ensembl的基因数据集是依据mRNA和蛋内序列的数据信息白动注释的。数据来源为新的基因组数据,UniProt/SwissProt和UniProt/TrEMBL的蛋白序列,NCBI的RefSeq里的DNA和蛋白序列和EMBL的cDNA序列。
b.Ensembl是一个开源(Perl API )的全自动的基因注释软件系统,很多网站都采用Ensembl这套软件系统。
c.Ensembl拥存其特有的BioMart功能。BioMart可以依据设定的要求对基 因组进行条件性检索,检索的结果吋以以图表的形式给出。
d.与其它数据库相整合,比如DAS。
e.基因组间的比较分析。
目前从事基因注释的机构组织有很多,这里列出的只是较为常用的几个。
Ensembl:目的是做出最好的基因注释集。
Havana (VEGA):是桑格中心的一个基因注释组织,它的目标和Eiisembl—致,因此,结合得也最紧密。
HGNC -给出人类基因唯一的名字和符号。
UniProt 主要集中于蛋白质的信息注释。
Ensembl的通用基因注释有两种,一是Ensembl GeneBuild,它是自动化注释,速度快,实时更新,在不同物种上均适用;另一种是Wellcome基金会的 Havana (VEGA)小组的注释,它是手工注释,速度慢,但是准确,它依据的都是已经验证过的mRNA和蛋白序列来注释,比较费时。因此Ensembl基因组数据库 中,会有两种注释。
Havana (VEGA)小组的注释常有以下几种类型:详细信息:http://vega.sanger.ac.uk/info/about/gene_and_transcript_types.html
Protein coding: 包括开放阅读框 (ORF).
Processed transcript:没有开放阅读框(ORF)
Pseudogene:假基因,是指脱氧核糖核酸(DNA)的碱基序列中,一段与其他生物体内已知的基因序列非常相似的片段。但是这个片段由于移码突变或者无义突变破坏了ORF,无法发挥原有的基因功能,也就是无法制造出蛋白质
IG gene:免疫球蛋白家族基因
TR Gene:T细胞受体基因
TEC (To be Experimentally Confirmed)
六、miRBase
网址:http://www.mirbase.org/,众所周知的microRNA基因注释数据库。目前miRBase只提供了microRNA的靶标的预测软件的链接(如:PicTar)
七、INSDC
八、MIM
wget https://omim.org/static/omim/data/mim2gene.txt
九、GWAS
wget http://www.genome.gov/admin/gwascatalog.txt
十、snp147.txt.gz(该网站包含了Annotation database)
wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/database/snp147.txt.gz
- hg38: http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/
- hg19: http://hgdownload.soe.ucsc.edu/goldenPath/hg19/database/
十一、dbNSFP2.9.txt.gz(SnpSift需要改文件存在索引文件)
构建索引:运行结束才会出现dbNSFP2.9.txt.gz.tbi文件
tabix -s 1 -b 2 -e 2 dbNSFP2.9.txt.gz
http://snpeff.sourceforge.net/SnpSift.version_4_0.html#dbNSFP(an integrated database of functional predictions from multiple algorithms (SIFT, Polyphen2, LRT and MutationTaster, PhyloP and GERP++, etc.).)
https://drive.google.com/uc?export=download&id=0B7Ms5xMSFMYlSTY5dDJjcHVRZ3M