摘要: 世界上已经成型的爬虫软件多达上百种,本文对较为知名及常见的开源爬虫软件进行梳理,按开发语言进行汇总,如下表所示。虽然搜索引擎也有爬虫,但本次我汇总的只是爬虫软件,而非大型、复杂的搜索引擎,因为很多兄弟只是想爬取数据,而非运营一个搜索引擎。开源爬虫汇总表开发语言软件名称软件介绍许可证JavaArach... 阅读全文
posted @ 2015-05-21 16:01 chamie 阅读(1385) 评论(0) 推荐(0) 编辑
摘要: 来源:《这就是搜索引擎核心技术详解》 2014.51搜索引擎及其技术框架1.1搜索引擎发展史 1)分类目录 “导航时代”,代表:Yahoo和国内hao123。通过人工收集整理,把属于各个类别的高质量网站或者网页分门别类罗列,用户可以根据分级目录来查找高质量的网站。 采取分类目录的方式,一半被收... 阅读全文
posted @ 2015-05-21 15:37 chamie 阅读(865) 评论(0) 推荐(0) 编辑