生物信息ID大全 | rsid | Ensembl | HGNC | Entrez | Refseq | Uniprot | OMIM

2023年05月01日

ID转换，一行搞定

library(org.Mm.eg.db) # mouse
library(org.Hs.eg.db) # human
library(clusterProfiler)
gene.df <- bitr(genes, fromType = "SYMBOL", toType = c("ENSEMBL", "ENTREZID"), OrgDb = org.Hs.eg.db)

rsid

common SNP的ID，一般以rs开头，其实完全可以用坐标代替，那样可读性就很差了。

https://www.ncbi.nlm.nih.gov/snp/
https://www.ncbi.nlm.nih.gov/snp/rs223337 【案例】

我们来看看一个SNP有哪些基本信息？

Position，最基本的，染色体，坐标，可见一个SNP就是一个基因组site
annotation：取决于它落到了哪一个区间，可能有多种注释，因为一个genomic的region可以有多种注释
Alleles：这个很重要，对于双倍体，大部分只有两个alleles，如果跟疾病有关，那一个就是protective，一个是risk allele。【一个mutation如何才能变为一个SNP？】
Frequency：就是一个allele在一个物种里的频率，排第二的就是MAF，MAF太小的GWAS就分析不了了，技术限制

Gene ID

这个标准比较多，有Ensembl ID，HGNC ID，Entrez ID（NCBI），Refseq ID

Ensembl：https://asia.ensembl.org/index.html

HGNC：https://www.genenames.org/

Entrez：https://www.ncbi.nlm.nih.gov/gene/672 【案例】

Refseq：https://www.ncbi.nlm.nih.gov/nuccore/NM_031991.4【所有物种，很少用】

HUGO symbol

Gene symbol

这部分极其麻烦，急需统一。给基因取名字是比较随意的事情，导致一个基因在历史上有很多Aliases [ˈeɪliəs]

https://www.genecards.org/cgi-bin/carddisp.pl?gene=TASOR2

在gtf文件里这个基因叫FAM208B，在VEP注释结果里这个基因叫TASOR2，他们的ENSG ID都是ENSG00000108021【无意发现VEP的symbol有一半无法与gtf里的symbol匹配，才发现这个问题】

如果不负责任，简单的remove掉不匹配的，也可以出结果，但会丢失掉很多信息。

接下来我就要想办法，如何用R包来统一不同系统的symbol。

Multi-symbol checker 完美解决这个问题【HGNC提供】

接下来把gtf里的Previous symbol导出来，用这个工具就可以得到Approved symbol。

统计得出gtf里的34153个symbol，有11290是在HGNC里找不到名字的，其中1162个是alias，可见gene symbol的历史复杂性，想统一是何其的难。

下载最新的HGNC symbol，以及对应的ENSG ID，https://www.genenames.org/download/custom/。

Transcript ID

isoform

ENST

现有的ID都是已知的，由于技术的更新，这部分会飞速更新。

Protein ID

Uniprot ID to other ID (ENSG etc.)

https://www.uniprot.org/uploadlists/【ID转换】
https://www.uniprot.org/uniprot/P09917 【案例】

Uniprot里提供了哪些信息：

参与的具体的生化反应
涉及到的所有化合物
信息太多了，看不过来

发现：一个 Uniprot ID可能对应多个ENSG ID，但基因名却是一样的。

1 2	`LOX5_HUMAN ENSG00000012779 ALOX5` `LOX5_HUMAN ENSG00000275565 ALOX5`

　这是为啥？

因为一个蛋白可能是由多个DNA序列产生的，这里就是，ENSG00000012779【This gene maps to 45,869,624-45,941,567 in GRCh37 coordinates.】，而ENSG00000275565【This gene maps to 45,916,924-45,988,867 in GRCh37 coordinates.】

而且产生的transcript的名字也不一样。

这里可以明白：一个protein对应一个gene，但一个gene可以对应多个基因组区域，而ENSG ID则可以区别不同区域的同名gene。

uniprot ID也存在重名的情况，但是很少。【有统一标准】

1 2	`E9PEK4_HUMAN ENSG00000182578` `CSF1R_HUMAN ENSG00000182578`

OMIM ID

某个基因对应的疾病的信息

https://omim.org/entry/113705

pathology病理学，从病的角度来看一切。

看看这个数据库里有还什么信息：

Cytogenetic location，细胞遗传学位置，如：17q21.31
Genomic coordinates
Phenotype，疾病的名字
历史研究，189篇文献引用，相当于文献综述。

会详解这些ID之间的相互转换

待续~

posted @ 2021-03-10 15:05 Life·Intelligence 阅读(4002) 评论(0) 编辑收藏举报

刷新页面返回顶部

（评论功能已被禁用）

历史上的今天：
2018-03-10 Hisat2 bowtie2比对结果解读（Hisat2 Alignment summary）

2025年3月

日

一

二

三

四

五

六

Digital-LI