亚基因组间共线性分析
网上的很多教程说的共线性分析,往往是指的基因的共线性分布情况,具体作图时依据基因的关联位置信息等,输入文件包括gff以及fasta等信息。
这里说的亚基因组共线性,是指两条序列或两个基因组间的一致性分布情况,只需要输入两条fasta或者两个基因组序列文件即可,主要目的是看序列间的相似性以及发现序列间的结构变异情况等。
一、比对
#可以使用MUMmer,输出只需要OUT.delta
nucmer -maxmatch -l 100 -c 500 REFERENCE.fa ASSEMBLY.fa -prefix OUT
#也可以使用minimap2,输出只需要aln.paf
minimap2 -cx asm5 asm1.fa asm2.fa > aln.paf
二、作图
OUT.delta可以提交到Assemblytics (在线作图工具),也可以使用mummerplot直接作图。
XXX.paf文件以及XXX.delta都可以使用dotPlotly 绘图
三、dotPlotly使用说明
该脚本基于几个R包,需要先安装,首先创建一个单独的R环境
conda create -n R
conda activate R
conda install r-base
激活R,安装依赖包
R
install.packages(c("optparse", "ggplot2", "plotly"))
#镜像选择19HK
克隆dotPlotly包到本地,主要使用两个脚本作图
git clone https://github.com/tpoorten/dotPlotly.git
作图
#For mummer outputs
show-coords -c example.delta > example.coords
./mummerCoordsDotPlotly.R -i example.coords -o out -s -t -m 500 -q 500000 -k 8 -l
#For PAF format
./pafCoordsDotPlotly.R -i example.paf -o out -s -t -m 500 -q 500000 -k 8 -l
参数说明:
-k 参考染色体数量,默认是所有染色体;
其余参数是绘图相关控制参数 ,不必修改,具体见脚本帮助文档。
四、结果图
不重要,懒得放了。