Hierarchical-Clustering总结
层次聚类,基于指定的相似度或距离定义计算出类之间距离,再进行聚类
距离算法很多,得看是否适用于生态学
下面链接对多种距离的解释
https://blog.csdn.net/enyayang/article/details/101537751
样本间距离是指样本之间的相似程度,可以通过数学方法估算。样本间越相似,距离数值越小,除了欧氏距离,还有Jaccard、bray-curtis、Unifrac等方法,Unifrac是基于物种之间的进化关系(需要OTU的进化树),分为两种:一种是Unweighted,只考虑物种的有无;一种是weighted方法,考虑的是物种丰度的变化。这些距离算法主要分为两大类别:OTU间是否关联(考虑进化关系);OTU是否加权(丰度)。
Bray-curtis,unifrac,weighted unifrac,jaccard计算方法比较
bray-curtis 考虑物种有无和物种丰度
Jaccard 只考虑物种有无
weighted Unifrac 考虑物种有无,物种丰度,OTU间是否关联,考虑进化关系
Unweighted Unifrac 考虑物种的有无,OTU间是否关联,考虑进化关系
门之间无法构造系统发育树。。。门 范围太大了,代表序列不好选
种水平和OTU水平倒是可以考虑一下
http://blog.sciencenet.cn/blog-651374-988817.html
#(1)聚类方法"centroid" 相对应使用的距离为平方欧式距离 squared Euclidean distances. 如:hc1ust.centroid <- hclust(dist(cent)^2, method = "cen")
#(2)聚类方法"ward.D2" 相对应使用的距离为欧式距离 "Euclidean" distances.
#(3)聚类方法"average"(=UPGMA) 相对应使用的距离为 "bray"(=Bray-Curtis) distances.