得分矩阵PAM与BLOSUM的比较与区别

对于蛋白质序列，计分矩阵主要用于记录在做序列比对时两个相对应的残基的相似度，一旦这个矩阵定义好了以后，比对程式就可以利用这个矩阵，尽量将相似的残基排在一起，以达到最好的比对。
得分矩阵主要有两种，第一种就是PAM（Point Accepted Multation)，另一种就是BLOSUM。
1、PAM矩阵（Point Accepted Mutation）
   基于进化的点突变模型，如果两种氨基酸替换频繁，说明自然界接受这种替换，那么这对氨基酸替换得分就高。一个PAM就是一个进化的变异单位, 即1%的氨基酸改变，但这并不意味100次PAM后，每个氨基酸都发生变化，因为其中一些位置可能会经过多次突变，甚至可能会变回到原来的氨基酸。
PAM矩阵的制作步骤：
    构建序列相似（大于85％）的比对
    计算氨基酸 j 的相对突变率mj（j被其它氨基酸替换的次数）
    针对每个氨基酸对 i 和 j , 计算 j 被 i 替换次数
    替换次数除以相对突变率（mj）
利用每个氨基酸出现的频度对j 进行标准化
取常用对数，得到PAM-1(i, j)
将PAM-1自乘N次，可以得到PAM-N。

这种矩阵的缺点是一旦PAM1的矩阵有效地误差，那么自乘250后得到的PAM250矩阵的误差就会变得很大。

如，PAM120矩阵用于比较相距120个PAM单位的序列。
     一个PAM-N矩阵元素（i，j）的值：
             反应两个相距N个PAM单位的序列中第i种氨基酸替换第j种氨基酸的频率。
针对不同的进化距离采用PAM 矩阵
序列相似度 = 40%      50%      60%
                   |              |              |
打分矩阵 = PAM120 PAM80 PAM60
                  PAM250 → 14% – 27%
2、BLOSUM 矩阵
此矩阵与PAM矩阵的不同之处在于：
         （1）用于产生矩阵的蛋白质家族及多肽链数目，BLOSUM比PAM大约多20倍。

　
（2）PAM：家族内成员相比，然后把所有家族中对某种氨基酸的比较结果加和在一起，产生“取代”数据（PAM-1 ）；PAM-1自乘n次，得PAM-n。
BLOSUM：首先寻找氨基酸模式，即有意义的一段氨基酸片断（如一个结构域及其相邻的两小段氨基酸序列），分别比较相同的氨基酸模式之间氨基酸的保守性（某种氨基酸对另一种氨基酸的取代数据），然后，以所有 60％保守性的氨基酸模式之间的比较数据为根据，产生BLOSUM60；以所有80％保守性的氨基酸模式之间的比较数据为根据，产生BLOSUM80。

（3）PAM-n中，n 越小，表示氨基酸变异的可能性越小；相似的序列之间比较应该选用n值小的矩阵，不太相似的序列之间比较应该选用n值大的矩阵。PAM-250用于约20%相同序列之间的比较。BLOSUM-n中，n越小，表示氨基酸相似的可能性越小；相似的序列之间比较应该选用 n 值大的矩阵，不太相似的序列之间比较应该选用n值小的矩阵。BLOSUM-62用来比较62％相似度的序列，BLOSUM-80用来比较80％左右的序列。

转载自：http://www.dingding.biz/archives/268

posted @ 2013-12-29 18:44 天下辉辉阅读(4944) 评论(0) 编辑收藏举报

刷新页面返回顶部

天下辉辉

得分矩阵PAM与BLOSUM的比较与区别

公告