2012 年 6月 7 日随笔档案 - 跳刀的兔子

2012年6月7日

摘要：查看原文聚类是机器学习里很重要的一类方法，基本原则是将“性质相似”(这里就有相似的标准问题，比如是基于概率分布模型的相似性又或是基于距离的相似性)的对象尽可能的放在一个Cluster中而不同Cluster中对象尽可能不相似。对聚类算法而言，有三座大山需要爬过去：（1）、a large number of clusters，(2)、a high feature dimensionality，（3）、a large number of data points。在这三种情况下，尤其是三种情况都存在时，聚类的计算代价是非常高的，有时候聚类都无法进行下去，于是出现一种简单而又有效地方法：Canopy M 阅读全文

posted @ 2012-06-07 16:32 跳刀的兔子阅读(5274) 评论(0) 推荐(0) 编辑

Mahout-DistanceMeasure （数据点间的距离计算方法）

摘要：在分类聚类算法,推荐系统中,常要用到两个输入变量(通常是特征向量的形式)距离的计算,即相似性度量.不同相似性度量对于算法的结果,有些时候,差异很大.因此,有必要根据输入数据的特征,选择一种合适的相似性度量方法.令X=(x1,x2,..,xn)T,Y=(y1,y2,...yn)T为两个输入向量,1.欧几里得距离(Euclidean distance)-EuclideanDistanceMeasure.‍相当于高维空间内向量说表示的点到点之间的距离。由于特征向量的各分量的量纲不一致，通常需要先对各分量进行标准化，使其与单位无关，比如对身高（cm）和体重（kg）两个单位不同的指标使用欧式距离可能.. 阅读全文

posted @ 2012-06-07 15:23 跳刀的兔子阅读(10428) 评论(0) 推荐(0) 编辑