生物信息ID大全 | rsid | Ensembl | HGNC | Entrez | Refseq | Uniprot | OMIM
2023年05月01日
ID转换,一行搞定
library(org.Mm.eg.db) # mouse library(org.Hs.eg.db) # human library(clusterProfiler) gene.df <- bitr(genes, fromType = "SYMBOL", toType = c("ENSEMBL", "ENTREZID"), OrgDb = org.Hs.eg.db)
rsid
common SNP的ID,一般以rs开头,其实完全可以用坐标代替,那样可读性就很差了。
我们来看看一个SNP有哪些基本信息?
- Position,最基本的,染色体,坐标,可见一个SNP就是一个基因组site
- annotation:取决于它落到了哪一个区间,可能有多种注释,因为一个genomic的region可以有多种注释
- Alleles:这个很重要,对于双倍体,大部分只有两个alleles,如果跟疾病有关,那一个就是protective,一个是risk allele。【一个mutation如何才能变为一个SNP?】
- Frequency:就是一个allele在一个物种里的频率,排第二的就是MAF,MAF太小的GWAS就分析不了了,技术限制
Gene ID
这个标准比较多,有Ensembl ID,HGNC ID,Entrez ID(NCBI),Refseq ID
Ensembl:https://asia.ensembl.org/index.html
HGNC:https://www.genenames.org/
Entrez:https://www.ncbi.nlm.nih.gov/gene/672 【案例】
Refseq:https://www.ncbi.nlm.nih.gov/nuccore/NM_031991.4【所有物种,很少用】
HUGO symbol
Gene symbol
这部分极其麻烦,急需统一。 给基因取名字是比较随意的事情,导致一个基因在历史上有很多Aliases [ˈeɪliəs]
https://www.genecards.org/cgi-bin/carddisp.pl?gene=TASOR2
在gtf文件里这个基因叫FAM208B,在VEP注释结果里这个基因叫TASOR2,他们的ENSG ID都是ENSG00000108021【无意发现VEP的symbol有一半无法与gtf里的symbol匹配,才发现这个问题】
如果不负责任,简单的remove掉不匹配的,也可以出结果,但会丢失掉很多信息。
接下来我就要想办法,如何用R包来统一不同系统的symbol。
Multi-symbol checker 完美解决这个问题【HGNC提供】
接下来把gtf里的Previous symbol导出来,用这个工具就可以得到Approved symbol。
统计得出gtf里的34153个symbol,有11290是在HGNC里找不到名字的,其中1162个是alias,可见gene symbol的历史复杂性,想统一是何其的难。
下载最新的HGNC symbol,以及对应的ENSG ID,https://www.genenames.org/download/custom/。
Transcript ID
isoform
ENST
现有的ID都是已知的,由于技术的更新,这部分会飞速更新。
Protein ID
Uniprot ID to other ID (ENSG etc.)
Uniprot里提供了哪些信息:
- 参与的具体的生化反应
- 涉及到的所有化合物
- 信息太多了,看不过来
发现:一个 Uniprot ID可能对应多个ENSG ID,但基因名却是一样的。
LOX5_HUMAN ENSG00000012779 ALOX5 LOX5_HUMAN ENSG00000275565 ALOX5
这是为啥?
因为一个蛋白可能是由多个DNA序列产生的,这里就是,ENSG00000012779【This gene maps to 45,869,624-45,941,567 in GRCh37 coordinates.】,而ENSG00000275565【This gene maps to 45,916,924-45,988,867 in GRCh37 coordinates.】
而且产生的transcript的名字也不一样。
这里可以明白:一个protein对应一个gene,但一个gene可以对应多个基因组区域,而ENSG ID则可以区别不同区域的同名gene。
uniprot ID也存在重名的情况,但是很少。【有统一标准】
E9PEK4_HUMAN ENSG00000182578 CSF1R_HUMAN ENSG00000182578
OMIM ID
某个基因对应的疾病的信息
pathology病理学,从病的角度来看一切。
看看这个数据库里有还什么信息:
- Cytogenetic location,细胞遗传学位置,如:17q21.31
- Genomic coordinates
- Phenotype,疾病的名字
- 历史研究,189篇文献引用,相当于文献综述。
会详解这些ID之间的相互转换
待续~