聚类算法相关
Bisecting KMeans
Bisecting KMeans算法的主要思想是:首先将所有点作为一个簇,然后将该簇一分为二,之后选择能最大限度降低聚类代价函数(也就是误差平方和)的簇划分为两个簇,以此进行下去,直到簇的数目等于用户给定的数目k为止。
Gaussian Mixture Model
所谓混合高斯模型就是指对样本的概率密度分布进行估计,而估计的模型是几个高斯模型加权之和(具体是几个要在模型训练前建立好)。每个高斯模型就代表了一个类(一个Cluster)。对样本中的数据分别在几个高斯模型上投影,就会分别得到在各个类上的概率。然后我们可以选取概率最大的类所为判决结果。
Latent Dirichlet Allocation
LDA主题模型的思想是将一篇文档中的内容抽象成多个主题,每个主题拥有自己的词,并且每篇文档按照概率分布的形式给出。