众推平台架构——分布式爬虫

分布式爬虫架构

经过新一轮的投票，项目的范围已经基本确定。

大家决定全力以付，集中攻克“分布式爬虫”。

分布式爬虫架构1

使用队列，即生产者，消费都模式。

由于生产者将规则生成到队列，然后由爬虫集群（消费者）到队列中取规则，然后按优先级等规则进行爬取。

分布式爬虫架构2

类似于webmagic，webmagic的是一个无须配置、便于二次开发的爬虫框架，它提供简单灵活的API，只需少量代码即可实现一个爬虫。webmagic采用完全模块化的设计，功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化)，支持多线程抓取，分布式抓取，并支持自动重试、自定义UA/cookie等功能。

分布式爬虫架构3

分布式爬虫架构3，参考的Cola是一个分布式的爬虫框架，用户只需编写几个特定的函数，而无需关注分布式运行的细节。任务会自动分配到多台机器上，整个过程对用户是透明的。

基于Cola实现的爬虫位于contrib/目录下。目前实现了四个爬虫：

wiki：维基百科。
weibo：新浪微博爬虫。从初始用户出发，然后是其关注和粉丝，依次类推，抓取指定个数的新浪微博用户的微博、个人信息、关注和粉丝。其中，用户微博只获取了内容、赞的个数、转发和评论的个数等等，而没有具体去获取此微博被转发和评论的内容。
generic(unstable)：通用爬虫，只需配置，而无需修改代码。目前Cola实现了一个抽取器（cola/core /extractor），能够从网页正文中自动抽取主要内容，即去除类似边栏和底脚等内容。但是，此抽取器目前准确度还不够，效率也不够高，所以需要谨慎使用。
weibosearch(unstable)：新浪微博搜索的爬虫。这个爬虫使用 cola.core.opener.SpynnerOpener，基于spynner实现了一个Opener能够执行JavaScript和Ajax代码。目前这个爬虫存在的问题是：新浪微博可能会将其识别成机器人，因此有可能会让输入验证码。

wiki和weibo之前有所提及。主要说明generic和weibosearch。

分布式爬虫架构4

设计方式参考hadoop等分布式运算架构。

控制结点类似于hadoop的namenode，工作结点类似于datanode。存储可以根据代理适配到DB或者Mongo集群等。

有想参与的可以一起进来讨论

群号 194338168
想深度参与的加，不想参与的就别往里进了，现在需要的主要是开发和文档两类人。群会定期往出清人！（项目会开源出来）

posted @ 2015-03-24 11:34 skyme 阅读(8887) 评论(1) 收藏举报

刷新页面返回顶部

cloudsky

QQ群交流：微服务架构实战 181942601 nlp研究与讨论 1群598640522
大数据_人工智能交流621943289

众推平台架构——分布式爬虫

分布式爬虫架构

分布式爬虫架构1

分布式爬虫架构2

分布式爬虫架构3

分布式爬虫架构4

有想参与的可以一起进来讨论

公告

cloudsky

QQ群交流：微服务架构实战 181942601 nlp研究与讨论 1群598640522 大数据_人工智能交流621943289

众推平台架构——分布式爬虫

分布式爬虫架构

分布式爬虫架构1

分布式爬虫架构2

分布式爬虫架构3

分布式爬虫架构4

有想参与的可以一起进来讨论

公告

QQ群交流：微服务架构实战 181942601 nlp研究与讨论 1群598640522
大数据_人工智能交流621943289