使用 RepeatMasker + RepeatModeler 完成重复序列注释
一、使用RepeatMasker进行基因组重复序列注释
1、安装conda
2、预选安装依赖库包,安装RepeatMasker,下载Repbase并解压至~/RepeatMasker/Libraries目录下面,配置./configure,完成。设置环境变量PATH,或者绝对路径使用RepeatMasker。
3、直接使用RepeatMasker
./RepeatMasker/RepeatMasker -species capsella -pa 40 -gff -dir CbpRepeat1/ Cbp.LG.fasta
具体参数见RepeatMasker -h 或者参见RepeatMasker官方文档
输出关注:
xxx.fasta.masked 重复用N代替(屏蔽)---> 后续基因注释用 ***
xxx.fasta.out.gff 以gff2形式存放重复序列出现位置
xxx.fasta.tbl 该文件记录分类信息 *
二、使用RepeatModeler进行从头预测:
相关网站 http://www.repeatmasker.org/RepeatModeler/ 官方安装指南
https://anaconda.org/ 可解决部分库包安装
相关问题解决办法网址:见CSDN、简书以及博客园的收藏夹
1、install Prerequisites
通过conda自动安装完成一般不需要提供PATH,如Perl、RECON、RepeatScout、trf、mafft等;
wget手动下载配置则需要在配置过程中添加路径,如rmblast、cd-hit、Ltr_retriever、NINJA等。
不同的环境下,conda能应付的prerequisite不尽相同!不能conda就手动wget!
2、perl ./configure 过程
遇到perl模块不够,可到anaconda.org上搜索perl-modules-name找到,如perl-json等
通过conda install perl-modules-name可自动安装完成。
通过CPAN手动安装问题太多!!!
UCSCTOOLS: /home/liuxin/UCSCTOOLS
rmblastn配置: /home/liuxin/rmblast-2.11.0/bin
LTR: /home/liuxin/LTR_retriever-2.9.0
NINJA: /home/liuxin/NINJA-0.98-cluster_only/NINJA
3、RepeatModeler配置环境变量
vi ~/.bashrc
export PATH="~/RepeatModeler-2.0.3:$PATH"
source ~/.bashrc
使用RepeatModeler:
第一步: 创建索引数据库
BuildDatabase -name capselladb xxx.fa
第二步: 运行从头预测
RepeatModeler -pa 4 -database capselladb -LTRStruct
输出关注: consensi.fa 自身比对找到的一致性序列
consensi.fa.classified 重复序列分类结果 --> 自定重复序列库 ***
consensi.fa.masked denovo屏蔽后序列,不常用
第三步: 引入自定的lib整合RepeatModeler+RepeatMasker得出综合结果
RepeatMasker -e ncbi -pa 40 -nolow -norna -lib consensi.fa.classified -dir xxx/ xxx.fa
例如: RepeatMasker -e ncbi -pa 40 -nolow -norna -lib /home/liuxin/RM_Results/RM_3828573.WedApr271359172022/consensi.fa.classified /home/liuxin/Cbp.LG.fasta