2018 年 5月 17 日随笔档案 - phinehasz

2018年5月17日

摘要： 0.爬虫逻辑一句话,对网页进行处理,偷到想要的数据,比如文章标题内容,然后存起来. 核心步骤: 下载页面--处理(从page收集数据)--管理(做后续处理)--储存(持久化到文件或DB) 在webmagic里分为四部分 Downloader、PageProcessor、Scheduler、Pipe 阅读全文

posted @ 2018-05-17 22:58 phinehasz 阅读(329) 评论(0) 推荐(0) 编辑

Phinehasz Zhi

超越你看到的

超越你所看到的

https://github.com/phinehasz

公告