随笔分类 -  数据分类与聚类

摘要:knn算法(k-Nearest Neighbor algorithm).是一种经典的分类算法.注意,不是聚类算法.所以这种分类算法必然包括了训练过程.然而和一般性的分类算法不同,knn算法是一种懒惰算法.它并非像其他的分类算法先通过训练建立分类模型.,而是一种被动的分类过程.它是边测试边训练建立分类... 阅读全文
posted @ 2014-07-23 11:09 vpoet 阅读(7689) 评论(0) 推荐(0)
摘要:分类是数据挖掘中十分重要的组成部分.分类作为一种无监督学习方式被广泛的使用.之前关于"数据挖掘中十大经典算法"中,基于ID3核心思想的分类算法C4.5榜上有名.所以不难看出ID3在数据分类中是多么的重要了.ID3又称为决策树算法,虽然现在广义的决策树算法不止ID3一种,但是由于ID3的重要性,习惯是... 阅读全文
posted @ 2014-07-22 15:14 vpoet 阅读(1241) 评论(0) 推荐(0)
摘要:继上两篇文章介绍聚类中基于划分思想的k-means算法和k-mediod算法本文将继续介绍另外一种基于划分思想的k-mediod算法-----clara算法clara算法可以说是对k-mediod算法的一种改进,就如同k-mediod算法对k-means算法的改进一样.clara(clusterin... 阅读全文
posted @ 2014-07-21 20:31 vpoet 阅读(888) 评论(0) 推荐(0)
摘要:上一篇博文中介绍了聚类算法中的kmeans算法.无可非议kmeans由于其算法简单加之分类效率较高已经广泛应用于聚类应用中.然而kmeans并非十全十美的.其对于数据中的噪声和孤立点的聚类带来的误差也是让人头疼的.于是一种基于Kmeans的改进算法kmediod应运而生.kmediod和Kmeans... 阅读全文
posted @ 2014-07-21 16:52 vpoet 阅读(4740) 评论(0) 推荐(0)
摘要:在数据挖掘中聚类和分类的原理被广泛的应用.聚类即无监督的学习.分类即有监督的学习.通俗一点的讲就是:聚类之前是未知样本的分类.而是根据样本本身的相似性进行划分为相似的类簇.而分类是已知样本分类,则需要将样本特征和分类特征进行匹配,进而将每个样本归入给出的特定的类.由于本文是对聚类算法中的k-mean... 阅读全文
posted @ 2014-07-21 15:39 vpoet 阅读(7291) 评论(0) 推荐(1)
摘要:聚类是数据挖掘很重要的组成部分.而大多数聚类算法都需要事先确定分类数目K.而本文是在实际情况下确定分类数目K的上限.进而对数据样本进行自动分类.首先介绍下最大最小距离算法:设样本集为X{x(1),x(2).......}1.选取任意一个样本作为第一个聚类中心 如z(1)=x(1)2.选取距离z(1)... 阅读全文
posted @ 2014-07-20 22:17 vpoet 阅读(762) 评论(0) 推荐(0)