随笔分类 - 数据分类与聚类
摘要:knn算法(k-Nearest Neighbor algorithm).是一种经典的分类算法.注意,不是聚类算法.所以这种分类算法必然包括了训练过程.然而和一般性的分类算法不同,knn算法是一种懒惰算法.它并非像其他的分类算法先通过训练建立分类模型.,而是一种被动的分类过程.它是边测试边训练建立分类...
阅读全文
摘要:分类是数据挖掘中十分重要的组成部分.分类作为一种无监督学习方式被广泛的使用.之前关于"数据挖掘中十大经典算法"中,基于ID3核心思想的分类算法C4.5榜上有名.所以不难看出ID3在数据分类中是多么的重要了.ID3又称为决策树算法,虽然现在广义的决策树算法不止ID3一种,但是由于ID3的重要性,习惯是...
阅读全文
摘要:继上两篇文章介绍聚类中基于划分思想的k-means算法和k-mediod算法本文将继续介绍另外一种基于划分思想的k-mediod算法-----clara算法clara算法可以说是对k-mediod算法的一种改进,就如同k-mediod算法对k-means算法的改进一样.clara(clusterin...
阅读全文
摘要:上一篇博文中介绍了聚类算法中的kmeans算法.无可非议kmeans由于其算法简单加之分类效率较高已经广泛应用于聚类应用中.然而kmeans并非十全十美的.其对于数据中的噪声和孤立点的聚类带来的误差也是让人头疼的.于是一种基于Kmeans的改进算法kmediod应运而生.kmediod和Kmeans...
阅读全文
摘要:在数据挖掘中聚类和分类的原理被广泛的应用.聚类即无监督的学习.分类即有监督的学习.通俗一点的讲就是:聚类之前是未知样本的分类.而是根据样本本身的相似性进行划分为相似的类簇.而分类是已知样本分类,则需要将样本特征和分类特征进行匹配,进而将每个样本归入给出的特定的类.由于本文是对聚类算法中的k-mean...
阅读全文
摘要:聚类是数据挖掘很重要的组成部分.而大多数聚类算法都需要事先确定分类数目K.而本文是在实际情况下确定分类数目K的上限.进而对数据样本进行自动分类.首先介绍下最大最小距离算法:设样本集为X{x(1),x(2).......}1.选取任意一个样本作为第一个聚类中心 如z(1)=x(1)2.选取距离z(1)...
阅读全文

浙公网安备 33010602011771号