生物信息ID大全 | rsid | Ensembl | HGNC | Entrez | Refseq | Uniprot | OMIM
2023年05月01日
ID转换,一行搞定
1 2 3 4 | library (org.Mm.eg.db) # mouse library (org.Hs.eg.db) # human library (clusterProfiler) gene.df <- bitr (genes, fromType = "SYMBOL" , toType = c ( "ENSEMBL" , "ENTREZID" ), OrgDb = org.Hs.eg.db) |
rsid
common SNP的ID,一般以rs开头,其实完全可以用坐标代替,那样可读性就很差了。
我们来看看一个SNP有哪些基本信息?
- Position,最基本的,染色体,坐标,可见一个SNP就是一个基因组site
- annotation:取决于它落到了哪一个区间,可能有多种注释,因为一个genomic的region可以有多种注释
- Alleles:这个很重要,对于双倍体,大部分只有两个alleles,如果跟疾病有关,那一个就是protective,一个是risk allele。【一个mutation如何才能变为一个SNP?】
- Frequency:就是一个allele在一个物种里的频率,排第二的就是MAF,MAF太小的GWAS就分析不了了,技术限制
Gene ID
这个标准比较多,有Ensembl ID,HGNC ID,Entrez ID(NCBI),Refseq ID
Ensembl:https://asia.ensembl.org/index.html
HGNC:https://www.genenames.org/
Entrez:https://www.ncbi.nlm.nih.gov/gene/672 【案例】
Refseq:https://www.ncbi.nlm.nih.gov/nuccore/NM_031991.4【所有物种,很少用】
HUGO symbol
Gene symbol
这部分极其麻烦,急需统一。 给基因取名字是比较随意的事情,导致一个基因在历史上有很多Aliases [ˈeɪliəs]
https://www.genecards.org/cgi-bin/carddisp.pl?gene=TASOR2
在gtf文件里这个基因叫FAM208B,在VEP注释结果里这个基因叫TASOR2,他们的ENSG ID都是ENSG00000108021【无意发现VEP的symbol有一半无法与gtf里的symbol匹配,才发现这个问题】
如果不负责任,简单的remove掉不匹配的,也可以出结果,但会丢失掉很多信息。
接下来我就要想办法,如何用R包来统一不同系统的symbol。
Multi-symbol checker 完美解决这个问题【HGNC提供】
接下来把gtf里的Previous symbol导出来,用这个工具就可以得到Approved symbol。
统计得出gtf里的34153个symbol,有11290是在HGNC里找不到名字的,其中1162个是alias,可见gene symbol的历史复杂性,想统一是何其的难。
下载最新的HGNC symbol,以及对应的ENSG ID,https://www.genenames.org/download/custom/。
Transcript ID
isoform
ENST
现有的ID都是已知的,由于技术的更新,这部分会飞速更新。
Protein ID
Uniprot ID to other ID (ENSG etc.)
Uniprot里提供了哪些信息:
- 参与的具体的生化反应
- 涉及到的所有化合物
- 信息太多了,看不过来
发现:一个 Uniprot ID可能对应多个ENSG ID,但基因名却是一样的。
1 2 | LOX5_HUMAN ENSG00000012779 ALOX5 LOX5_HUMAN ENSG00000275565 ALOX5 |
这是为啥?
因为一个蛋白可能是由多个DNA序列产生的,这里就是,ENSG00000012779【This gene maps to 45,869,624-45,941,567 in GRCh37 coordinates.】,而ENSG00000275565【This gene maps to 45,916,924-45,988,867 in GRCh37 coordinates.】
而且产生的transcript的名字也不一样。
这里可以明白:一个protein对应一个gene,但一个gene可以对应多个基因组区域,而ENSG ID则可以区别不同区域的同名gene。
uniprot ID也存在重名的情况,但是很少。【有统一标准】
1 2 | E9PEK4_HUMAN ENSG00000182578 CSF1R_HUMAN ENSG00000182578 |
OMIM ID
某个基因对应的疾病的信息
pathology病理学,从病的角度来看一切。
看看这个数据库里有还什么信息:
- Cytogenetic location,细胞遗传学位置,如:17q21.31
- Genomic coordinates
- Phenotype,疾病的名字
- 历史研究,189篇文献引用,相当于文献综述。
会详解这些ID之间的相互转换
待续~
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
2018-03-10 Hisat2 bowtie2比对结果解读(Hisat2 Alignment summary)