摘要:
聚类算法,不是分类算法。分类算法是给一个数据,然后判断这个数据属于已分好的类中的具体哪一类。聚类算法是给一大堆原始数据,然后通过算法将其中具有相似特征的数据聚为一类。这里的k-means聚类,是事先给出原始数据所含的类数,然后将含有相似特征的数据聚为一个类中。所有资料中还是Andrew Ng介绍的明白。首先给出原始数据{x1,x2,...,xn},这些数据没有被标记的。初始化k个随机数据u1,u2,...,uk。这些xn和uk都是向量。根据下面两个公式迭代就能求出最终所有的u,这些u就是最终所有类的中心位置。公式一:意思就是求出所有数据和初始化的随机数据的距离,然后找出距离每个初始数据最近的数 阅读全文