机器学习第五讲

第五讲、聚类

1.数学知识回顾:凸函数与jensen不等式

 

 

2.聚类简介 聚类的本质:将数据集中相似的样本进行分组的过程;

每个组称为一个簇(cluster)每个簇的样本对应一个潜在的类别;

样本没有类别标签,一种典型的无监督学习方法;

这些簇满足以下两个条件: 相同簇的样本之间距离较近;

不同簇的样本之间距离较远。

聚类方法:层次聚类、K-Means、谱聚类等。

3.举例:客户分群

 

 

4.K-Means模型

 

 

①模型求解:

交替迭代法:固定c,优化r; 固定r,优化c。

固定c,优化r:

 

 

固定r,优化c:

 

 

②算法流程

(1).随机选择k个点作为初始中心

(2).Repeat: 将每个样本指派到最近的中心,形成k个类。

重新计算每个类的中心为该类样本均值

(3).直到中心不发生变化

5.高斯混合模型

 

 

求解过程:

 

 

 

posted @ 2021-01-30 20:14  利威尔  阅读(72)  评论(0编辑  收藏  举报