R学习之-R层次聚类方法(tm包)
1、距离计算
## method for class 'TermDocumentMatrix' dissimilarity(x, y = NULL, method)
## method for class 'PlainTextDocument' dissimilarity(x, y = NULL, method)
参数说明:
x:文档-词矩阵或者文本文档;
y:文本文档,仅当x是文本文档时y才是文本文档;
method:距离计算方法,所有的method均来自于proxy包,proxy包的文档在这里。
method的种类主要有:
(1)jaccard:jaccard系数(默认方法),又叫做Jaccard相似性系数,用来比较样本集中的相似性和分散性的一个概率。
Jaccard = 样本集交集个数 / 样本集合集个数;
(2)Matching:Simple Matching Coefficient,SMC(简单匹配系数)。该度量同等地对出现和不出现计数。
如下图所示.其中,q 表示向量中对应位置都为 1 的元素个数;t 表示向量中对应位置都为 0 的元素个数;s 表示向量 i 某
个位置为 1,而在向量 j 的对应位置为 0 的元素个数;r 表示在向量 i 某个位置为 0,而在向量 j 的对应位置为 1 的
元素个数.来自(http://www.jos.org.cn/1000-9825/17/79.pdf)
(3)dice:Dice's coefficient 类似于jaccard系数,但是在分子上加权,Dice系数S为
(4)affinity:
Affinity between the two items i and j is defined by Aggarwal et al. (2002) as
A(i,j) = sup({i,j})/(sup({i}) + sup({j}) - sup({i,j})),
where sup(.) is the support measure. This means that affinity is the Jaccard similarity between items.
( 暂时还没搞明白)
(5) cosine:余弦相似度,计算两个向量间的余弦夹角
(6)pearson: pearson Correlation Coefficient皮尔逊相关系数,见:http://zh.wikipedia.org/zh-cn/%E7%9B%B8%E5%85%B3
例子:
data("crude") tdm <- TermDocumentMatrix(crude) dissimilarity(tdm, method = "cosine") #计算距离的方法为cosine(余弦夹角)方法 dissimilarity(crude[[1]], crude[[2]], method = "eJaccard") #dJaccard方法
2、层次聚类
hclust(d, method = "complete", members=NULL)
参数说明:
d:聚类的矩阵
method:聚类的方法
(1)ward:方法简述:基于方差分析思想,如果分类合理,则同类样品间离差平方和应当较小,类与类间离差平方和应当较大。
(2)single:最短距离法,计算两类观测间最近一对的距离;
(3)complete:最长距离法,计算两类观测间最远一对的距离;
(4)average:平均距离法,测量两类每对观测间的平均距离;
(5)mcquitty:McQuitty相似分析法,(待补充)
(6)median:中间距离法,
(7)centroid:重心法,两类间的距离定义为两类重心之间的距离,对样品分类而言,每一类中心就是属于该类样品的均值。
特点:该距离随聚类地进行不断缩小。该法的谱系树状图很难跟踪,且符号改变频繁,计算较烦。
上述部分内容来自于:http://blog.csdn.net/yillc/article/details/6746509
3、图形展示
plot(x, labels = NULL, hang = 0.1, axes = TRUE, frame.plot = FALSE, ann = TRUE, main = "Cluster Dendrogram", sub = NULL, xlab = NULL, ylab = "Height", ...) plclust(tree, hang = 0.1, unit = FALSE, level = FALSE, hmin = 0, square = TRUE, labels = NULL, plot. = TRUE, axes = TRUE, frame.plot = FALSE, ann = TRUE, main = "", sub = NULL, xlab = NULL, ylab = "Height")