机器学习公开课笔记第七周之K均值法

一,无监督学习(Unsupervised learning)

 无监督学习就是给定一系列没有标签的训练数据,找出训练数据之间的关系,最典型的就是聚类算法(Clustering Algorithm)

无监督学习的工程应用

 

二,K均值法(K Means Algorithm),

1,K均值法是常用聚类算法之一,把训练数据分为K个聚类

 

 2,算法过程

1),随机寻找K个数据作为聚类中心

2),给每个数据分配一个离它最近的聚类中心

3),计算分配给同一个聚类中心的所有数据的均值,聚类中心更改至均值

4),如果所有聚类中心都等于均值,结束,否则跳至第2步

P.S 如果某个聚类中心没有其他数据分配给它,移除该中心

 

3,市场细分的一个例子

 

4,代价函数

K均值法的优化目标是使所有数据到各自的聚类中心的距离的和最小

 

 K均值法的算法过程其实就是求使代价函数最小的聚类中心的过程

随机寻找K个数据作为聚类中心,有可能会找到代价函数的局部最小值,

所以需要多次随机初始化运行K均值法,计算代价函数最小值

5,如何选择聚类中心数量K

肘部方法(Elbow Method),画出K和代价函数J的二次图,选用使斜率急剧变化(肘部)的K,但如第二幅图所示,斜率变化不大,肘部方法就就没用

T我们还应该根据聚类的目的来决定聚类的数量K,以制造T恤为例,我们是想制造更多的尺寸类型来使顾客更满意,还是更少的尺寸类型使T恤卖的更便宜

 

posted @ 2017-04-25 17:27    阅读(272)  评论(0编辑  收藏  举报