使用transanno制作不同基因组版本坐标映射的chain 文件?

不同基因组版本的位置(坐标)对应关系,在数据分析环节经常用到。

位置对应关系通常通过比对来获取,而信息一般存储在chain文件中

对于人类、小鼠等模式生物而言,UCSC已经提供了不同版本的chain文件

对于非模式生物,往往需要先自己制作chian文件,再通过ncbi的remap,UCSC的lifeover和crossmap等工具进行坐标转换。

UCSC官网也提供了制作chain文件的方法。但需要parasol集群环境(需要root)。这一步的设置往往难倒了不少人,尤其是ssh localhost。

最近找了一个新工具transanno,结合minimap2比对,30分钟内就能创建一个新的chain文件,使用起来也非常简单。感谢开源,感谢李恒。

# minimap2比对
minimap2 -cx asm5 --cs QUERY_FASTA.fa REFERENCE_FASTA.fa > PAF_FILE.paf

# transanno创建chain文件
transanno minimap2chain PAF_FILE.paf --output CHAINFILE.chain

后续选择相应工具即可进行坐标转换,也可以继续用transanno,转换vcf、bed、gff/gtf(仅限genecode/Ensembl格式)等格式文件。

操作失败的教程:
https://www.dazhuanlan.com/hokit/topics/1370056
https://www.jianshu.com/p/825993c9b03a

posted @ 2022-09-17 20:29  生物信息与育种  阅读(280)  评论(0编辑  收藏  举报