随笔分类 -  htmlunit

摘要:记录两年前写的一个采集系统,包括需求,分析,设计,实现,遇到的问题及系统的成效,系统最主要功能就是可以通过对每个网站进行不同的采集规则配置对每个网站爬取数据,两年前离职的时候已爬取的数据量大概就在千万级左右,每天采集的数据增量在一万左右,配置采集的网站1200多个,现记录一下系统实现,在提供一些简单 阅读全文
posted @ 2018-07-27 19:09 叫我明羽 阅读(4351) 评论(6) 推荐(2) 编辑
摘要:htmlUnit 校验验证码 直接上代码 阅读全文
posted @ 2017-06-07 14:53 叫我明羽 阅读(1631) 评论(0) 推荐(0) 编辑
摘要:原文:http://blog.csdn.net/qq_28384353/article/details/52974432#reply 将爬虫部署到服务器上运行后,在查看服务器的状态监控时发现,天猫爬虫执行一段时间后,CPU占用异常升高,内存也跟着爆炸,虽然程序没有中断,但是爬取速度已经变成龟速。查看 阅读全文
posted @ 2017-02-28 18:11 叫我明羽 阅读(1055) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示