hadoop与spark的处理技巧(六)聚类算法(1)简介与类型
一、聚类模型的简介
实际应用中,无监督的例子非常常见,原因是在许多真实场景中,标注数据
的获取非常困难,代价非常大(比如,人工为分类模型标注训练数据)。但是,我们仍然想要从
数据中学习基本的结构用来做预测。
在很多情况下,聚类模型等价于分类模型的无监督形式。用分类的方法,我们可以学习分类
模型,预测给定训练样本属于哪个类别。
在聚类中,我们把数据进行分割,这样每个数据样本就会属于某个部分,称为类簇。类簇相
当于类别,只不过不知道真实的类别。
聚类模型的很多应用和分类模型一样,比如:
(1)基于行为特征或者元数据将用户或者客户分成不同的组;
(2)对网站的内容或者零售店中的商品进行分组;
(3)找到相似基因的类;
(4)在生态学中进行群体分割;
(5)创建图像分割用于图像分析的应用,比如物体检测。
二、聚类模型的类型
在Spark2.0版本中(不是基于RDD API的MLlib),共有四种聚类方法:
(1)K-means
(2)Latent Dirichlet allocation (LDA)
(3)Bisecting k-means(二分k均值算法)
(4)Gaussian Mixture Model (GMM)。
基于RDD API的MLLib中,共有六种聚类方法:
(1)K-means
(2)Gaussian mixture
(3)Power iteration clustering (PIC)
(4)Latent Dirichlet allocation (LDA)**
(5)Bisecting k-means
(6)Streaming k-means
多了Power iteration clustering (PIC)和Streaming k-means两种。