摘要: 在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,这里整理罗列下。 为了方便下面的解释和举例,先设定我们要比较X个... 阅读全文
posted @ 2015-12-01 12:04 成都笨笨 阅读(462) 评论(0) 推荐(0) 编辑
摘要: 2015年3月23日(星期一)晴、南风 今天数据组开会说爬虫已经开发完毕,在尝试爬网站。由于我们采集的网站,网址都是固定的,并且爬虫网页深度为3。不需要像heritrix这些通用爬虫那么强大的功能。爬虫主要采用了httpclient和htmlparse两个Java库,爬虫的架构思路借鉴了下面的思路... 阅读全文
posted @ 2015-12-01 01:19 成都笨笨 阅读(552) 评论(0) 推荐(0) 编辑
摘要: 2015年3月06日(星期五) 阴、南风,天空依旧没有太阳。 项目的进展好比这天气一样,说变就变。搜索引擎的会议开完了。会议开完了的同时,也宣告去年一年的引擎项目的开发以失败而告终。没有思路、没有规划、没有计划,项目的失败也必然的。虽然项目开始时候,大家都预见到了结局,但是当结局来临的那一刻,... 阅读全文
posted @ 2015-12-01 00:09 成都笨笨 阅读(184) 评论(0) 推荐(0) 编辑