Fork me on GitHub
听雨轩
生命易破碎,梦想只争朝夕!
08 2016 档案
开源通用爬虫框架YayCrawler-运行与调试
摘要:本节我将向大家介绍如何运行与调试YayCrawler。该框架是采用SpringBoot开发的,所以可以通过java –jar xxxx.jar的方式运行,也可以部署在tomcat等容器中运行。 首先让我们介绍一下运行环境: 1、jdk8 2、安装mysql数据库,用作存储解析规则等数据,需要创建一个 阅读全文
posted @ 2016-08-08 23:20 流水殇 阅读(7780) 评论(1) 推荐(3)
开源通用爬虫框架YayCrawler-页面的抽取规则定义
摘要:本节我将向大家介绍一下YayCrawler的核心-页面的抽取规则定义,这也是YayCrawler能够做到通用的主要原因之一。如果我要爬去不同的网站的数据,尽管他们的网站采用的开发技术不同、页面的结构不同,但是我只要针对不同的网站定义不同的抽取规则即可,不用再对每个网站专门开发一个爬虫。 首先让我来解 阅读全文
posted @ 2016-08-06 21:57 流水殇 阅读(5821) 评论(3) 推荐(0)
开源通用爬虫框架YayCrawler-开篇
摘要:各位好!从今天起,我将用几个篇幅的文字向大家介绍一下我的一个开源作品——YayCrawler,其在GitHub上的网址是:https://github.com/liushuishang/YayCrawler,欢迎大家关注和反馈。 YayCrawler是一个基于WebMagic开发的分布式通用爬虫框架,开发语言是Java。我们知道目前爬虫框架很多,有简单的,也有复杂的,有轻量型的,也有重量型的。您... 阅读全文
posted @ 2016-08-06 15:21 流水殇 阅读(7247) 评论(15) 推荐(12)
开源通用爬虫框架YayCrawler-框架的运行机制
摘要:这一节我将向大家介绍一下YayCrawler的运行机制,首先允许我上一张图: 首先各个组件的启动顺序建议是Master、Worker、Admin,其实不按这个顺序也没关系,我们为了讲解方便假定是这个启动顺序。 一、Master端分析 Master启动后会连接Redis查询任务队列状态,Master维 阅读全文
posted @ 2016-08-06 15:15 流水殇 阅读(3372) 评论(0) 推荐(0)