比较基因组学中-利用单拷贝基因构建进化树

(1)同源基因的查找

  OrthoMCL or Orthofinder;

(2)多序列比对

  Muscle / MAFFT / ClustalW / T-coffee, Muscle 效果好点

(3)调取保守区域,并收尾连接,形成supergene

  Gblocks  

(4)进化树构建

  RaxML MEGA 等,  很多文献用RaxML,PhyML或Mrbayes,因为ML树和贝叶斯进化树对核苷酸 / 氨基酸替代模型的选择非常敏感,故在进行进化树或分化时间构建之前,需对核苷酸 / 氨基酸替代模型进行选择。(jModelTest 对cDNA进行替代模型选择,ProtTest 对蛋白进行替代模型选择

  构建树的教程:https://www.yuque.com/wusheng/gw7a9p/mcc73y

(5)分化时间分析 divergence time

  mcmctree. PAML中的一个程序, BEAST2

(6)基因扩张收缩分析

  CAFE  

(7)基因是否收到正选择

  codeML PAML中一个程序

  

 

 

 

 

https://zhuanlan.zhihu.com/p/39992256

一、为什么需要选择核苷酸替换模型

构建进化树可以通过同源 DNA序列或蛋白质分子的氨基酸序列来实现,其具体的步骤基本上是先选取生物数据(同源 DNA 序列或蛋白质分子的氨基酸序列数据)与进化距离模型,然后对不同物种DNA 或蛋白质的序列进行比对,再应用距离模型和比对结果计算进化距离,最后通过进化距离构建进化树。

因此,选择进化距离模型是构建进化树的基础,DNA分子中基因的进化距离是通过对核苷酸替代数进行估计获得的(当遗传信息从父代复制到子代时,往往会发生一些改变,这些改变称为突变。突变是DNA进化的动力。常见的突变模式有:替代,即一个核苷酸被另一个核苷酸所替代;插入,即插入一个或多个核苷酸;删除,即删除一个或多个核苷酸。但是在分析进化时,一般只考虑替代。),要估计核苷酸替代数,就必须应用核苷酸替代的数学模型。由于核苷酸替换模型的选择直接影响进化距离的计算,进而对所构建的系统树是否合理起决定作用。即本文中核苷酸替换模型选择的问题?

二、核苷酸替换模型的选择

选择模型涉及两个主要问题,一是采用什么标准判断模型与数据拟合好坏的问题,二是采用什么方法计算选择模型的目标函数。对于第一个问题,目前提出的方法有似然率检验、AIC信息标准(information criteria)、贝叶斯因子(BIC标准)和决策论法等。对于第二个问题,目前主要采用最大似然法和贝叶斯法两种方法计算模型在给定数据集和系统树上的似然值。

有了核苷酸替代模型,我们就可以计算进化距离。在同一替代模型中,对核苷酸替代速率做不同假设就会得到不同的进化距离(不同的进化距离构建得到不同的进化树),常用的进化距离包括: p距离、替代率为常数的d 距离、替代数服从 [公式] 分布的 [公式] 距离 [公式] 。最后就可以通过进化距离构建系统树。目前比较常用的替代模型包括:JC69模型、K80模型、F81模型、TN93模型。由于核苷酸替换模型的选择直接影响进化距离的计算,进而对所构建的系统树是否合理起决定作用。以上内容摘自郭子湖的硕士毕业论文,主要方便学习查阅,侵删致歉。

  

https://www.biomart.cn/65423/news/2908793.htm 

参考这个

posted @ 2020-04-11 10:26  斩毛毛  阅读(6658)  评论(0编辑  收藏  举报