亚基因组间共线性分析

网上的很多教程说的共线性分析,往往是指的基因的共线性分布情况,具体作图时依据基因的关联位置信息等,输入文件包括gff以及fasta等信息。

这里说的亚基因组共线性,是指两条序列或两个基因组间的一致性分布情况,只需要输入两条fasta或者两个基因组序列文件即可,主要目的是看序列间的相似性以及发现序列间的结构变异情况等。

一、比对

#可以使用MUMmer,输出只需要OUT.delta

nucmer -maxmatch -l 100 -c 500 REFERENCE.fa ASSEMBLY.fa -prefix OUT

#也可以使用minimap2,输出只需要aln.paf

minimap2 -cx asm5 asm1.fa asm2.fa > aln.paf

二、作图

OUT.delta可以提交到Assemblytics (在线作图工具),也可以使用mummerplot直接作图。

XXX.paf文件以及XXX.delta都可以使用dotPlotly 绘图

三、dotPlotly使用说明

该脚本基于几个R包,需要先安装,首先创建一个单独的R环境

conda create -n R
conda activate R
conda install r-base

激活R,安装依赖包

R
install.packages(c("optparse", "ggplot2", "plotly"))
#镜像选择19HK

克隆dotPlotly包到本地,主要使用两个脚本作图

git clone https://github.com/tpoorten/dotPlotly.git

 作图

#For mummer outputs
show-coords -c example.delta > example.coords
./mummerCoordsDotPlotly.R -i example.coords -o out -s -t -m 500 -q 500000 -k 8 -l

#For PAF format
./pafCoordsDotPlotly.R -i example.paf -o out -s -t -m 500 -q 500000 -k 8 -l

参数说明:

-k 参考染色体数量,默认是所有染色体;

其余参数是绘图相关控制参数 ,不必修改,具体见脚本帮助文档。

四、结果图

不重要,懒得放了。

posted @ 2022-09-23 22:27  pd_liu  阅读(687)  评论(0编辑  收藏  举报