初识webmagic

1. 爬虫的分类：分布式和单机

分布式主要就是apache的nutch框架，java实现，依赖hadoop运行，学习难度高，一般只用来做搜索引擎开发。

java单机的框架有：webmagic和webcollector以及crawler4j

python单机的框架：scrapy和pyspider

2. 作者自己在官方教程也说到了“WebMagic的设计参考了业界最优秀的爬虫Scrapy”，说明精通scrapy还是爬虫工程师最重要的任务。

3. WebMagic的代码分为两部分：webmagic-core和webmagic-extension

4. WebMagic由四个组件(Downloader、PageProcessor、Scheduler、Pipeline)构成。Spider是内部流程的核心，四大组件都是它的属性。

Spider也是WebMagic操作的入口，它封装了爬虫的创建、启动、停止、多线程等功能。

5. public static void main(String[] args){

Spider.create(new GithubRepoPageProcessor()) //从https://github.com/code4craft开始抓

.addUrl("https://github.com/code4craft") //设置Scheduler，使用Redis来管理URL队列

.setScheduler(new RedisScheduler("localhost")) //设置Pipeline，将结果以json方式保存到文件

.addPipeline(new JsonFilePipeline("D:\\data\\webmagic")) //开启5个线程同时执行 .thread(5) //启动爬虫

.run();

}

6. webmagic-selenium支持动态网页的爬取，webmagic-saxon支持X-Path和XSLT的解析。

posted @ 2018-07-14 12:03 方山客阅读(278) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗？
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句：使用策略模式优化代码结构

昵称：方山客
园龄： 8年7个月
粉丝： 4
关注： 12

2025年3月

日

一

二

三

四

五

六

古琴剑弹