机器学习第八堂课20210422

聚类

应用在无监督学习中。

X=[X1,X2,X3,,,,Xn]

上节课讲的降维实际是把每个数据的特征维度降低了,通过对数据本身进行分析,进行降维。

聚类,是在数据量这个角度 通过方法,对数据进行分析,找到K个代表,可以代表整个n个数据,n个数据归类到K个代表中。

聚类任务相关概念

定义:依据样本的相似度或距离,将其划分为若干个通常不相交的子集(“簇”,cluster)的数据分析问题。

目的:既可以用于发现数据内在的分布结构,也可作为分类等其他学习任务的数据处理过程。

应用:例子1购物网站上,用户的消费类性分析(书籍、服饰......);例子2根据各个时刻统计的车流量,定义高峰时刻。

聚类的模型表达:

硬聚类:样本只从属于一个簇。例如Kmeans算法。软聚类:样本以概率从属于多个簇。例如高斯混合模型。

样本的相似度度量:用距离衡量相似度时,距离越小样本越相似。

距离的性质:非负性、同一性、对城性、直递性。

闵可父斯基距离:p=2欧式距离、p=1曼哈顿距离。

 

 夹角余弦:夹角余弦越大,样本越相似。

簇的距离:簇内的距离、簇间的距离。有以下四种典型的距离情况。

平均距离:含义:簇类C1和C2的距离等于两个簇类所有样本对的距离平均。

 

 

最远距离

最近样本间距离

中心点间的距离

层次聚类方法

主要特点:在不同层次

算法过程:

层次聚类,是一种很直观的算法。顾名思义就是要一层一层地进行聚类,可以从下而上地把小的cluster合并聚集,也可以从上而下地将大的cluster进行分割。所谓从下而上地合并cluster,具体而言,就是每次找到距离最短的两个cluster,然后进行合并成一个大的cluster,直到全部合并为一个cluster。整个过程就是建立一个树结构。

 

基于原型的方法

K-Means聚类

目标:给定N个样本的集合,K均值聚类的目标是将N个样本划分为K个不同的类或者簇中。

模型表达:用C表示划分...

目标函数最小化样本与其所属簇的中心之间的距离的总和。

 

 K-Means的不足,簇的数目K需要人为指定;对簇中心的初始化比较敏感,不能保证收敛到全局最优。

 

 

基于密度的方法

 

 

参考链接:https://baike.baidu.com/item/%E9%97%B5%E6%B0%8F%E8%B7%9D%E7%A6%BB/22677930?fromtitle=%E9%97%B5%E5%8F%AF%E5%A4%AB%E6%96%AF%E5%9F%BA%E8%B7%9D%E7%A6%BB&fromid=23665511&fr=aladdin

https://blog.csdn.net/qq_33384379/article/details/103579917

https://blog.csdn.net/ycy0706/article/details/90439245

https://blog.csdn.net/u014694994/article/details/94972668

https://zhuanlan.zhihu.com/p/70414047

posted @ 2021-04-22 10:03  白雪儿  Views(75)  Comments(0Edit  收藏  举报