摘要: 聚类就是将数据对象分组成多个类或者簇,划分的原则是在同一个粗中的对象之间具有较高的相似度,而不同簇中的对象差别较大。属于一种无指导的学习方法。 好的聚类算法应该满足以下几个方面: (1) 可伸缩型:无论对小数据量还是大数据量应该都是有效的。 (2) 具有处理不同类型属性的能力。 (3) 能够发现任意形状的聚类。 (4) 输入参数对领域知识的弱依赖性 (5) 对于输入记录顺序不敏感 (6) 能够处理很多维度的数据,而不止是对3维左右的数据有效 (7) 处理噪声数据的能力 (8) 基于约束的距离:既能找到满足特定的约束,又具有良好聚类特性的数据分组 (9) 挖掘出来的信息是可理解的和可用的。 聚. 阅读全文
posted @ 2009-09-15 21:07 searchDM 阅读(859) 评论(0) 推荐(0) 编辑
摘要: 网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网 站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。 对于搜索 引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原 因一方面是抓取. 阅读全文
posted @ 2009-09-15 20:09 searchDM 阅读(726) 评论(0) 推荐(0) 编辑
摘要: Wordnet是一个词典。每个词语(word)可能有多个不同的语义,对应不同的sense。而每个不同的语义(sense)又可能对应多个词,如topic和subject在某些情况下是同义的,一个sense中的多个消除了多义性的词语叫做lemma。例如,“publish”是一个word,它可能有多个sense: 1. (39) print, publish -- (put into print; "The newspaper published the news of the royal couple's divorce"; "These news shoul 阅读全文
posted @ 2009-09-15 20:04 searchDM 阅读(2708) 评论(0) 推荐(1) 编辑
摘要: 序列挖掘 与时间序列分析还是有不同的。序列挖掘一般是指相对时间或者其他顺序出现的序列的高频率子序列的发现,典型的应用还是限于离散型的序列。 序列模式挖掘的一般步骤: (1) 排序阶段:即将原始的数据库转换成序列数据库。 (2) 大项集阶段:中暗处所有频繁的项集(即大项集)组成的集合L。实际上,也同步得到所有大1-序列组成的集合。 (3) 转换阶段:在寻找序列模式的过程中,要不断地检测一个给定的大序列集合是否包含于一个客户序列中。为了使这个过程尽量的快,转换阶段就是将每条记录被所包含的所有最大项目集所取代。如果一条交易不包含任何大项集,在转换完成的序列中它不会被保留。 (4) 序列阶段:利用.. 阅读全文
posted @ 2009-09-15 20:01 searchDM 阅读(876) 评论(0) 推荐(0) 编辑