摘要: 1.2 总体架构 WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件,并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能。WebMagic的设计参考了Scapy,但是实现方式更Java 阅读全文
posted @ 2017-03-16 16:48 托马斯的半亩地 阅读(984) 评论(0) 推荐(0) 编辑
摘要: 1.1 设计思想 1. 一个框架,一个领域 一个好的框架必然凝聚了领域知识。WebMagic的设计参考了业界最优秀的爬虫Scrapy,而实现则应用了HttpClient、Jsoup等Java世界最成熟的工具,目标就是做一个Java语言Web爬虫的教科书般的实现。 如果你是爬虫开发老手,那么WebMa 阅读全文
posted @ 2017-03-16 16:43 托马斯的半亩地 阅读(262) 评论(0) 推荐(0) 编辑
摘要: WebMagic in Action Little book of WebMagic. WebMagic是我业余开发的一款简单灵活的爬虫框架。基于它你可以很容易的编写一个爬虫。 这本小书以WebMagic入手,一方面讲解WebMagic的使用方式,另一方面讲解爬虫开发的一些惯用方案。 文章预览请点h 阅读全文
posted @ 2017-03-16 16:24 托马斯的半亩地 阅读(350) 评论(0) 推荐(0) 编辑