会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Phinehasz Zhi
超越你看到的
超越你所看到的
https://github.com/phinehasz
博客园
首页
新随笔
联系
订阅
管理
2018年5月17日
爬虫入门(一)基于webmagic理解爬虫原理及核心业务逻辑
摘要: 0.爬虫逻辑 一句话,对网页进行处理,偷到想要的数据,比如文章标题内容,然后存起来. 核心步骤: 下载页面--处理(从page收集数据)--管理(做后续处理)--储存(持久化到文件或DB) 在webmagic里分为四部分 Downloader、PageProcessor、Scheduler、Pipe
阅读全文
posted @ 2018-05-17 22:58 phinehasz
阅读(329)
评论(0)
推荐(0)
编辑
公告