无监督学习的12个最重要的算法介绍及其用例总结
无监督学习(Unsupervised Learning)是和监督学习相对的另一种主流机器学习的方法,无监督学习是没有任何的数据标注只有数据本身。
无监督学习算法有几种类型,以下是其中最重要的12种:
1、聚类算法根据相似性将数据点分组成簇
k-means聚类是一种流行的聚类算法,它将数据划分为k组。
2、降维算法降低了数据的维数,使其更容易可视化和处理
主成分分析(PCA)是一种降维算法,将数据投影到低维空间,PCA可以用来将数据降维到其最重要的特征。
3.异常检测算法识别异常值或异常数据点
支持向量机是可以用于异常检测(示例)[26]。异常检测算法用于检测数据集中的异常点,异常检测的方法有很多,但大多数可以分为有监督和无监督两种。监督方法需要标记数据集,而无监督方法不需要。
无监督异常检测算法通常基于密度估计[20],试图找到数据空间中密集的区域外的点。
一个简单的方法是计算每个点到k个最近邻居的平均距离。距离相邻点非常远的点很可能是异常点。
还有很多基于密度的异常检测算法,包括局部离群因子(Local Outlier Factor,LOF)和支持向量数据描述(Support Vector Domain Description,SVDD)。这些算法比简单的k近邻方法更复杂,通常可以检测到更细微的异常[21]。大多数异常检测算法都需要进行调整,例如指定一个参数来控制算法对异常的敏感程度。如果参数过低,算法可能会漏掉一些异常。如果设置过高,算法可能会产生误报(将正常点识别为异常点)。
4、分割算法将数据分成段或组[12]
分割算法可以将图像分割为前景和背景。
完整文章:
https://avoid.overfit.cn/post/9d754c298efe4db5806649c897740825