构建系统发育树
有参考《Genomes of Subaerial Zygnematophyceae Provide Insights into Land Plant Evolution》
最后决定用mafft+phylosuite+raxml
首先需要将序列进行比对 在这里使用mafft
conda install mafft
mkdir mafft && cd mafft
mafft --maxiterate 1000 --localpair input.fa > output.fa
下载phylosuite主要用来提取保守序列
配着这三处设置即可得到提取好的序列
之后将fasta转化成phylip格式,这里不详细写了。
最后直接用conda安装raxml
raxmlHPC -f a -x 12345 -p 12345 -# 100 -m PROTGAMMALGX -s ex.phy -n ex -T 20
-f a
此参数用于选择 RAxML 运算的算法。可以设定的值非常之多。 a 表示执行快速 Bootstrap 分析并搜索最佳得分的 ML 树。
-x 12345
指定一个 int 数作为随机种子,以启用快速 Bootstrap 算法。
-p 12345
指定一个随机数作为 parsimony inferences 的种子。
-# 100
指定 bootstrap 的次数。
-m PROTGAMMALGX
指定核苷酸或氨基酸替代模型。PROTGAMMALGX 的解释: "PROT" 表示氨基酸替代模型; GAMMA 表示使用 GAMMA 模型; X 表示使用最大似然法估计碱基频率。
-s ex.phy
指定输入文件。phy 格式的多序列比对结果。软件包中包含一个程序来将 fasta 格式转换为 phy 格式。
-n ex
输出文件的后缀为 .ex 。
-T 20
指定多线程运行的 CPUs 。
一些软件推荐:
(1)同源基因的查找
OrthoMCL or Orthofinder;
(2)多序列比对
Muscle / MAFFT / ClustalW / T-coffee, Muscle 效果好点
(3)调取保守区域,并收尾连接,形成supergene
Gblocks
(4)进化树构建
RaxML MEGA 等, 很多文献用RaxML,PhyML或Mrbayes,因为ML树和贝叶斯进化树对核苷酸 / 氨基酸替代模型的选择非常敏感,故在进行进化树或分化时间构建之前,需对核苷酸 / 氨基酸替代模型进行选择。(jModelTest 对cDNA进行替代模型选择,ProtTest 对蛋白进行替代模型选择)
构建树的教程:https://www.yuque.com/wusheng/gw7a9p/mcc73y
(5)分化时间分析 divergence time
mcmctree. PAML中的一个程序, BEAST2
(6)基因扩张收缩分析
CAFE
(7)基因是否收到正选择
codeML PAML中一个程序