生物信息大数据&数据库(NCBI、EBI、UCSC、TCGA)
想系统的学习生信数据库可以先看一下北大的公开课,有一章专门讲的数据库与软件:
1-生物信息学:导论与方法 北大\10 生物信息数据库及软件资源
一个优秀的生信开发者能够解决如下问题:
- 如何鉴定一个重要的且没有被解决的生物学问题?
- 如何将该问题转化为一个可计算的问题?
- 如何提出一个解决此问题的算法?
- 如何实现该算法?
- 如何评估算法?
生信工具使用者需要解决如下问题:
- 每个方法解决的是哪个生物学问题?
- 该方法有哪些基本的假设?
- 每个参数是什么意思,都是用来干什么的?
- 准确度评估,sensitivity and specificity,tradeoff,应该追求哪一个?
- 生物学问题和方法的局限性?
生信资源的分类:
- 集中资源&独立资源
- 数据库&软件工具
- 原始数据库&二级数据库
- 命令行工具&网页服务器工具
UCSC Genome Browser:基因组浏览器,表达调控、变异数据,track,ENCODE 非编码元件(计划)
集中资源
NCBI |
EBI |
UCSC |
|
链接 |
|||
Tools |
BLAST |
BLAST、Exonerate、ClustalW2 |
BLAT、In-Silico PCR |
Data Repository |
GenBank、GEO、SRA |
ArrayExpress、ENA、PDBe |
ENCODE |
DNA/Genome |
Genome |
Ensembl、Genomes |
Ideogram、Recombination Rate、GC Content |
DNA/Gene |
Gene |
Ensembl |
UCSC Genes、GENCODE、RefSeq Genes |
RNA |
RefSeq |
Ensembl |
mRNAs、ESTs、UniGene |
Proteins |
Protein, RefSeq、Conserved Domain |
UniProt、InterPro、PRIDE |
|
Expression |
UniGene |
Expression、Atlas |
Affy Exon Array、Caltech RNA-seq、Allen Brain |
Regulation |
Transcription、TFBS、Epigenetics、DNaseI HS |
||
Literature |
PubMed |
||
Ontology |
Gene Ontology |
||
Comparative Genomics |
Taxonomy、HomoloGene |
*Ensembl |
Conservation、Neandertal |
Variation |
dbSNP、dbVar |
*Ensembl |
SNPs、DGV、RepeatMasker |
Disease |
OMIM、MeSH、dbGaP、ClinVar |
GAD、COSMIC、ClinVar、GWAS Catalog、QTLs |
独立资源
癌症
DNAnexus Reanalyzes Cancer Genome Atlas Data
DNAnexus完成世界上最大的泛癌症数据的重分析(附数据下载) - 基因慧
DNANexus:DNANexus专注于建立一个云计算服务器中的DNA数据库,然后以服务方式将该数据库提供给研究者和科学家。DNAnexus和谷歌开展技术合作,提供最为全面的DNA数据库,它可通过美国国家生物技术信息中心(NCBI)下SRA的网站访问到这些DNA数据(2011年2月,NCBI曾宣布由于联邦政府削减经费支持逐步淘汰SRA)。
Cancer Genome Atlas:泛癌症基因组
The Cancer Genome Atlas:就是 TCGA 的全称,Atlas 古希腊的一个神