聚类算法 Clustering
此系列笔记来源于
Coursera上吴恩达老师的机器学习课程
聚类算法Clustering(无监督学习)
K均值算法 K-Means
步骤:
1、随机生成两点

这两点叫做聚类中心,选择两点是因为这里想把数据分成两类
2、迭代
在内循环中的第一步是 簇分配
这里将每个绿点根据距离谁最近分成红蓝两部分

即计算,k表示第k个聚类中心
第二步是 移动聚类中心
对于第k个聚类中心,计算所有的点的平均值,并令该聚类中心,即等于这个平均值点
代价函数
随机初始化
运行K均值算法前我们需要先初始化,选取几个初始的聚类中心。
由于一次的随机初始化,效果可能不太好,会导致局部最优解,因此我们会进行多次K均值算法。
初始化时,令
另外这个算法在k较小时,如会有比较好的效果,当聚类中心数量较大时,未必有非常好的效果。
选择聚类数量
1、最常见的是根据图像手动选择聚类数量
可以是两个也可以是三个四个
2、运用肘部法则
如左图,我们做出曲线后,可以选择这个拐点
但当图像如右图时,用肘部法则便是十分困难的
3、根据实际目的
比如卖T恤
我们要提供多种尺寸的T恤,那么就根据目的选择K的种数即可
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· winform 绘制太阳,地球,月球 运作规律
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· AI 智能体引爆开源社区「GitHub 热点速览」