Phinehasz Zhi

超越你看到的

摘要: 0.爬虫逻辑 一句话,对网页进行处理,偷到想要的数据,比如文章标题内容,然后存起来. 核心步骤: 下载页面--处理(从page收集数据)--管理(做后续处理)--储存(持久化到文件或DB) 在webmagic里分为四部分 Downloader、PageProcessor、Scheduler、Pipe 阅读全文
posted @ 2018-05-17 22:58 phinehasz 阅读(323) 评论(0) 推荐(0) 编辑