jsoup抓取数据
摘要:jsoup的主要功能如下:1. 从一个URL,文件或字符串中解析HTML;2. 使用DOM或CSS选择器来查找、取出数据;3. 可操作HTML元素、属性、文本;接下来介绍jsoup 是如何优雅的进行HTML 文档处理的。文档输入jsoup 可以从包括字符串、URL地址以及本地文件来加载HTML 文档...
阅读全文
posted @
2015-07-26 19:10
chamie
阅读(586)
推荐(0) 编辑
开源爬虫软件汇总
摘要:世界上已经成型的爬虫软件多达上百种,本文对较为知名及常见的开源爬虫软件进行梳理,按开发语言进行汇总,如下表所示。虽然搜索引擎也有爬虫,但本次我汇总的只是爬虫软件,而非大型、复杂的搜索引擎,因为很多兄弟只是想爬取数据,而非运营一个搜索引擎。开源爬虫汇总表开发语言软件名称软件介绍许可证JavaArach...
阅读全文
posted @
2015-05-21 16:01
chamie
阅读(1385)
推荐(0) 编辑
搜索引擎综述
摘要:来源:《这就是搜索引擎核心技术详解》 2014.51搜索引擎及其技术框架1.1搜索引擎发展史 1)分类目录 “导航时代”,代表:Yahoo和国内hao123。通过人工收集整理,把属于各个类别的高质量网站或者网页分门别类罗列,用户可以根据分级目录来查找高质量的网站。 采取分类目录的方式,一半被收...
阅读全文
posted @
2015-05-21 15:37
chamie
阅读(871)
推荐(0) 编辑