矩阵相似性分析

0、简介

ANOSIM分析(analysis of similarities)即相似性分析,主要用于分析高维数据组间相似性,为数据间差异显著性评价提供依据。在一些高维数据分析中,需要使用PCA、PCoA、NMDS等方法进行降维,但这些方法并不显示组间差异的显著性指标,此时可以使用ANOSIM分析解决此问题。
ANOSIM为非参数检验方法,用于评估两组实验数据的整体相似性及相似的显著性。
该方法主要有两个数值结果:一个是R,用于不同组间否存在差异;一个是P,用于说明是否存在显著差异。以下分别对两个数值进行说明:
R值的计算公式如下:
rB:组间差异性秩的平均值(mean rank of between group dissimilarities)
rW:组内差异性秩的平均值(mean rank of within group dissimilarities)
n:总样本个数(the number of samples)
 
R的范围为[-1,1]
R>0说明组间差异大于组内差异,R<0组间差异小于组内差异。
R只是组间是否有差异的数值表示,并不提供显著性说明。
 
P值则说明不同组间差异是否显著,该P值通过置换检验(Permutation Test)获得。
置换检验大致原理:(假设原始分组为实验组和对照组)
1、对所有样本进行随机分组,即实验组和对照组。
2、计算当前分组时的R值,即为Ri。
3、重复当前操作N次,对所有Ri及原始R从大到小排序,R所处的位置除以N即为置换检验P值。
 
举例说明:
比如我们有case和control两组(Group1 和Group 2),数据如下:
 首先需要对样本进行相似性计算,得到如下差异性(即距离矩阵)矩阵:
 然后计算差异性秩(即从小到大排序),如此便把差异性矩阵转换为秩矩阵:
 接着计算组内差异性平均秩和组间差异性平均秩,rW=13.08,r= 15.56,如此R=(15.56-13.08)/(0.25*8*7) = 0.17
 利用置换检验的方法计算p值,如下的方法重复1000次, rb= 14.06,rw = 15.08
 根据1000次随机后获得的Ri与R进行排序,获得P值。
可以使用R语言进行ANOSIM分析,使用的R包为vegan,函数为anosim。
其帮助文档提供的程序为:
1
2
3
4
5
data(dune)<br>data(dune.env)
dune.dist <- vegdist(dune)
dune.ano <- with(dune.env, anosim(dune.dist, Management))
summary(dune.ano)
plot(dune.ano)

  summary(dune.ano)结果为:

  

  plot画出的图形为:

  

  不难看出,图中箱子为summary结果中的Dissimilarity ranks between and within classes的可视化,即组间差异秩分布和组内差异秩分布(下图中的数值分布)。

  
 
 
 
(致谢:以上内容参考 博文 http://www.360doc.com/content/18/0113/21/33459258_721682039.shtml )
 

一、beta多样性简介

Beta多样性作为群落结构研究的根基, 常用来比较不同生态系统之间的差异,反映生物种类因环境所造成异质性。通俗来讲,不同的处理(环境、健康状态等),会导致群落结构产生变化。往小了说,也就是物种分布情况的改变,一般通过指示物种分析,定位具体的差异物种,就能阐明驱动群落变化的主要物种因素;往大了说,还可以研究处理效应对样本乃至分组的影响,这个时候Beta多样性就发挥了其作用!

指示Beta的方法有很多,在文章中常见的有-距离指数(Jaccard、Bray-Curtis、Unifrac);排序分析(PCA、PCoA、NMDS);聚类分析(UPGMA);差异分析(adonis、anosim)等几大类。通过这些分析如PCA、PCoA等,能在实验前期帮助规避很多风险,例如,揭示分组是否符合预期,采样是否合理,还可对离群样本进行剔除等。

 
图1 PCoA散点图[1]

无论聚类还是排序分析,从分枝或散点距离,例如图1[1],能明显看出三个分组有差异,这种通过人眼的差异结果带有强烈的主观性,缺乏证据,也就是常说的统计学数据,会受到学术质疑。

因此今天给大家介绍两种组间差异的检验方法--ANOSIM、ADONIS。相较于普通的统计检验,像两组比较的Wilcoxon秩和检验、多组kw秩和检验等等。ANOSIM、ADONIS不但能输出显著性p值,来判定比较组之间是否存在差异,还可以额外给出差异的程度(R值),来揭示不同因素对群落变异的贡献。废话不多说进入正题!

ANOSIM、 ADONIS都是基于相似性(距离矩阵)的非参数检验,由于不要求数据正态分布和方差齐性,非常适用于微生物群落这种样本分布不确定的复杂分析。在β多样性中常被看作一个量化的数值,来反应每个组内各个样本间的群落物种组成差异。接下来带大家感受ANOSIM、PERMANOVA原理的奇妙之处。

二、ANOSIM原理简介

ANOSIM[2](Analysis of similarities)是在1993为解决多物种丰度数据的普遍适用性,而开发的非参检验,至今已被引用14285次,在群落多样性研究中极具权威性。

首先,通过变量(物种/OTU等丰度信息)进行样本关系计算,得到距离矩阵(图2 a),距离类型可以是常见的Bray-Curtis,同样Jaccard、Unifrac也适用;

 
图2 距离矩阵(a),关系排名(b)

接着,对样本关系从小到大进行排序,最小的距离记为1,依次类推为2,3,4……得到排序后的关系排名(秩)(图2 b);

然后,用上述的秩计算R;

 

其中:

rB=组间秩的平均值(排序后组间距离的平均值),即图2 b中,橙色区域的平均值,rB=(13+14.5+14.5+7+9+2+4+6+5)/9=8.33;

rW=组内秩的平均值(排序后组内距离的平均值);即图2 b中,蓝色区域的平均值,rW=(3+10+8+1+12+11)/6=7.5;

n为总样本个数。

最后,通过置换检验求p,将样本打乱随机分组,计算置换后的R值(记为Ri),经过N次置换后(至少1000次),Ri大于原始R的概率即为p。

ANOSIM结果输出解读(表1):

 
 

 

其中:

Diffs:差异比较组;

R:差异程度,一般介于(0,1)之间。

R>0,说明组间存在差异(R>0.75:大差异;R>0.5:中等差异,R>0.25:小差异);

R=0或在0附近,表明组间没有差异;

若R出现<0的情况,说明组内差异显著大于组间差异,这个时候表明分组或采样不合理,需要重做实验。

Pvalue:P值,数值小于0.05、0.01或在两者范围内,表明分组有显著性差异,进而反映出目标分组有意义。

 

三、Adonis原理简介

Adonis[3](non-parametric multivariate analysis of variance),是在ANOSIM 和MANOVA 基础上于2001年开发的另一种分组差异检验方法,在文献中可能大家比较熟悉的是PERMANOVA这个别称。其作用与ANOSIM类似,通过统计检验的p值来判断分群效果是否显著,再辅佐R值判别差异程度!

但两者也有所不同,Adonis的检验模型更多的是借鉴了MANOVA(多元方差分析),本质是基于F统计量的方差分析,利用各种组间距离指数对总方差进行分解,可以分析不同分类因子对群落差异的解释度,并使用置换检验进行统计学检验。

检验原理第一步与ANOSIM一致,计算样本间的距离矩阵,但不再对距离矩阵进行排序;

然后,依据距离矩阵计算F值;

 

其中:

SST=所有分析对象的平均距离;

SSW=组内平均距离(SSW);

那么组间平均距离为SSA= SST– SSW;

N为总观测数,a为组数。

最后,同样通过随机置换的方式得到p值,先计算多次置换后的伪Fi值(p值精度会随着置换次数的增加而增加,一般来说,精度为0.05至少1000次,精度为0.01至少5000次),当伪Fi值大于原始F观测值的概率即为p值。

以上就是Adonis的原理部分,接下来带大家解读输出的Adonis结果表中(表2),各部分内容所代表的含义。

 
 

 

其中:

Diffs:差异比较组;

Df:自由度;

SumsOfSqs:总方差,又称离差平方和;

MeanSqs :均方(差),即Sums Of Sqs/Df;

Fvalue:F 检验值;

R2:不同分组对样品差异的解释度,即分组方差与总方差的比值,

R2 越大表示分组对差异的解释度越高;

Pvalue:P值,值越小可信度越高。

 

四、案例应用

Adonis和Anosim在文章中展示的方式有多种,下面就通过几篇应用案例,解锁Adonis和Anosim在高分文献中的花式用法。

案例一:表格展示法[4]

发表期刊:Nature Microbiology(Nature子刊)

影响因子:17.745

发表时间:2021年12月

作者在前期α多样性分析中,得出人体测量指标(治疗和安慰组)之间并没有显著差异,因此继续探索肠道菌群在3个不同年龄组(7-12个月、1-2岁和2岁以上)的beta多样性,以期揭示非洲农村婴儿的肠道菌群受年龄影响的变化规律(表3)。

 
 

 

结果显示年龄组间的PERMANOVA检验和相似性ANOSIM分析的P值为0.0003,表明beta多样性在不同年龄组之间具有显著性差异。

Tips

上述这种直接用表格展示Adonis和Anosim检验结果的方式,仅建议在文章内容极其丰富的情况下,一般推荐用下面这两种方式进行可视化呈现。

案例二:与PCOA、NMDS等搭配法[5]

发表期刊:Genome Medicine

影响因子:11.117

发表时间:2021年9月

作者通过对表现为MCII(minimum clinically important improvement)的患者(MCII+)和没有表现出MCII的患者(MCII-)的多样性研究,探索类风湿关节炎(RA)患者特征的肠道微生物群落差异(图3)。

 
图3 MCII患者组肠道微生物群落之间的差异分析

PERMANOVA结果表明,MCII患者组肠道微生物群落之间具有显著性差异(p=0.002),并且对群落总变异的贡献为3.8% (R2=0.038)。

案例三:盒型图展示法[6]

盒型图是统计检验的经典展示图,例如在下面这篇案例中 。

发表期刊:BioMed Research Internationa

影响因子:2.0

发表时间:2020年6月

作者旨在探讨血液透析对尿毒症患者微生物群落的影响,将患者分为血液透析组(A组)、血液透析+血液透析滤过组(B组)、血液透析+血液透析滤过+血液灌注组(C组)、成人终末期肾脏病ESRD患者(CK组)进行多样性分析(图4)。

 
图4 血液透析的尿毒症患者微生物群落的差异

Anosim结果表明,CK组与透析组的菌落分布有显著差异;三种不同透析方式患者的菌落分布也有显著差异。

总结:

1)在文章中Adonis和Anosim有单独分开使用,也有同时出现的情况。在实际应用中,如果两种检验结果都与预期一致,那么可以两种检验结果都呈现,在丰富文章内容的同时,还能更加说明分组的合理性。但由于两种检验模型不一致,若出现一种检验是分组有差异,一种没有,择优而选就行。

2)两种检验方法计算原理比较繁琐,并且与不同距离类型(Bray-Curtis、Jaccard、Unifrac)搭配,输出的结果可能不一致,也许一次分析要花费不少时间,才能达到理想的结果,那么有高效率的解决方法吗?有的,给大家推荐基迪奥的在线平台,只要把简单的物种、otu丰度数据导进去,分分钟就能出结果,还能一键切换距离类型,减少试错和时间成本。

 https://wjrsbu.smartapps.cn/zhihu/article?id=460376942&isShared=1&_swebfr=1&_swebFromHost=mibrowser
posted @ 2023-03-14 15:36  jasonzhangxianrong  阅读(1511)  评论(0编辑  收藏  举报