随笔分类 -  爬虫

摘要:记录两年前写的一个采集系统,包括需求,分析,设计,实现,遇到的问题及系统的成效,系统最主要功能就是可以通过对每个网站进行不同的采集规则配置对每个网站爬取数据,两年前离职的时候已爬取的数据量大概就在千万级左右,每天采集的数据增量在一万左右,配置采集的网站1200多个,现记录一下系统实现,在提供一些简单 阅读全文
posted @ 2018-07-27 19:09 叫我明羽 阅读(4351) 评论(6) 推荐(2) 编辑
摘要:htmlUnit 校验验证码 直接上代码 阅读全文
posted @ 2017-06-07 14:53 叫我明羽 阅读(1631) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示