Fork me on GitHub
听雨轩
生命易破碎,梦想只争朝夕!
摘要: 本节我将向大家介绍一下YayCrawler的核心-页面的抽取规则定义,这也是YayCrawler能够做到通用的主要原因之一。如果我要爬去不同的网站的数据,尽管他们的网站采用的开发技术不同、页面的结构不同,但是我只要针对不同的网站定义不同的抽取规则即可,不用再对每个网站专门开发一个爬虫。 首先让我来解 阅读全文
posted @ 2016-08-06 21:57 流水殇 阅读(5798) 评论(3) 推荐(0) 编辑
摘要: 各位好!从今天起,我将用几个篇幅的文字向大家介绍一下我的一个开源作品——YayCrawler,其在GitHub上的网址是:https://github.com/liushuishang/YayCrawler,欢迎大家关注和反馈。 YayCrawler是一个基于WebMagic开发的分布式通用爬虫框架,开发语言是Java。我们知道目前爬虫框架很多,有简单的,也有复杂的,有轻量型的,也有重量型的。您... 阅读全文
posted @ 2016-08-06 15:21 流水殇 阅读(7229) 评论(15) 推荐(12) 编辑
摘要: 这一节我将向大家介绍一下YayCrawler的运行机制,首先允许我上一张图: 首先各个组件的启动顺序建议是Master、Worker、Admin,其实不按这个顺序也没关系,我们为了讲解方便假定是这个启动顺序。 一、Master端分析 Master启动后会连接Redis查询任务队列状态,Master维 阅读全文
posted @ 2016-08-06 15:15 流水殇 阅读(3357) 评论(0) 推荐(0) 编辑