常用DL算法

K-means算法

输入参数：c

过程：

该算法是无监督的聚类算法。

K值的选取不好把握(改进：可以通过在一开始给定一个适合的数值给k，通过一次K-means算法得到一次聚类中心。对于得到的聚类中心，根据得到的k个聚类的距离情况，合并距离最近的类，因此聚类中心数减小，当将其用于下次聚类时，相应的聚类数目也减小了，最终得到合适数目的聚类数。可以通过一个评判值E来确定聚类数得到一个合适的位置停下来，而不继续合并聚类中心。重复上述循环，直至评判函数收敛为止，最终得到较优聚类数的聚类结果)；
对于不是凸的数据集比较难收敛(改进：基于密度的聚类算法更加适合，比如DESCAN算法)；
如果各隐含类别的数据不平衡，比如各隐含类别的数据量严重失衡，或者各隐含类别的方差不同，则聚类效果不佳；
采用迭代方法，得到的结果只是局部最优；
对噪音和异常点比较的敏感(改进1：离群点检测的LOF算法，通过去除离群点后再聚类，可以减少离群点和孤立点对于聚类效果的影响；改进2：改成求点的中位数，这种聚类方式即K-Mediods聚类（K中值）)。

过程：

过程：

KNN(K Near Neighbor): K个最近的邻居，即每个样本都可以用最近的K个邻居来代表。

一个样本与数据集中的k个样本最相似，如果这k个样本中的大多数属于某一个类别，则该样本也属于这个类别。

在选择两个点进行距离排序的时候一般使用L1距离和L2距离，以及切比雪夫距离。

优点：

缺点：

posted @ 2022-05-15 19:09 ouyang_wsgwz 阅读(304) 评论(0) 编辑收藏举报

刷新页面返回顶部