摘要: K-means聚类算法(K-平均/K-均值算法)是最为经典也是使用最为广泛的一种基于距离的聚类算法。基于距离的聚类算法是指采用距离作为相似性量度的评价指标,也就是说当两个对象离得近时,两者之间的距离比较小,那么它们之间的相似性就比较大。 算法的主要思想是通过迭代过程把数据集划分为不同的类别,使得评价 阅读全文
posted @ 2019-10-23 09:32 数之美 阅读(1307) 评论(0) 推荐(0) 编辑
摘要: K最近邻(KNN,K-NearestNeighbor)是1967年由Cover T和Hart P提出的一种基本分类与回归方法,它是数据挖掘分类技术中最简单的方法之一,非常容易理解应用。所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的(一般用距离最短表示最接近)K个邻居来代表。 阅读全文
posted @ 2019-10-23 09:19 数之美 阅读(1400) 评论(0) 推荐(0) 编辑
摘要: 决策树算法是一种归纳分类算法,它通过对训练集的学习,挖掘出有用的规则,用于对新集进行预测。在其生成过程中,分割时属性选择度量指标是关键。通过属性选择度量,选择出最好的将样本分类的属性。 决策树分类算法,包括ID3算法、C4.5算法和CART算法。都属于贪婪算法,自顶向下以递归的方式构造决策树。 ID 阅读全文
posted @ 2019-10-23 09:12 数之美 阅读(4160) 评论(1) 推荐(1) 编辑