biomaRt使用 | 同源基因名转换 | 人鼠同源基因ID

这个要严谨一点，众所周知，小鼠是小写，人是大写，以前为了方便都是直接一个toupper函数完成转换，但这样做实在是太粗糙了，大概有三分之一的基因会丢失。

我简单统计了一下：

人鼠同源的有23242个基因注释，其中有7695个基因是无法简单对应的，所以你之前的分析会漏掉很多基因。

建议使用ensembl_gene_id来做index，然后map，这样才是生信该有的严谨！！！

终于花了一整天来搞human和mouse的gene id，以后的分析就相对严谨了。

参考：project/iterbi/iterbi/notebooks/1.prepare_commonly_used_data.ipynb

https://github.com/leezx/RToolbox/blob/master/notebooks/1.prepare_commonly_used_data.ipynb

biomaRt也算是稍微玩明白了，这个网页版的服务器直接崩溃，也没人来维护了。

用代码的话，如何选服务器（mirror和url）才是核心，否则代码根本无法运行。

其他的代码就比较简单。

ensembl ftp里的数据注释不好，根本不知道下什么，该改进一下了。

待续~

posted @ 2022-08-19 13:38 Life·Intelligence 阅读(1464) 评论(0) 收藏举报

刷新页面返回顶部

Digital-LI