机器学习公开课笔记第七周之K均值法
一,无监督学习(Unsupervised learning)
无监督学习就是给定一系列没有标签的训练数据,找出训练数据之间的关系,最典型的就是聚类算法(Clustering Algorithm)
无监督学习的工程应用
二,K均值法(K Means Algorithm),
1,K均值法是常用聚类算法之一,把训练数据分为K个聚类
2,算法过程
1),随机寻找K个数据作为聚类中心
2),给每个数据分配一个离它最近的聚类中心
3),计算分配给同一个聚类中心的所有数据的均值,聚类中心更改至均值
4),如果所有聚类中心都等于均值,结束,否则跳至第2步
P.S 如果某个聚类中心没有其他数据分配给它,移除该中心
3,市场细分的一个例子
4,代价函数
K均值法的优化目标是使所有数据到各自的聚类中心的距离的和最小
K均值法的算法过程其实就是求使代价函数最小的聚类中心的过程
随机寻找K个数据作为聚类中心,有可能会找到代价函数的局部最小值,
所以需要多次随机初始化运行K均值法,计算代价函数最小值
5,如何选择聚类中心数量K
肘部方法(Elbow Method),画出K和代价函数J的二次图,选用使斜率急剧变化(肘部)的K,但如第二幅图所示,斜率变化不大,肘部方法就就没用
T我们还应该根据聚类的目的来决定聚类的数量K,以制造T恤为例,我们是想制造更多的尺寸类型来使顾客更满意,还是更少的尺寸类型使T恤卖的更便宜