会员
周边
捐助
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
van28
博客园
首页
新随笔
联系
订阅
管理
2019年7月25日
分布式爬虫系统 实践 简述
摘要: 问题提出:爬虫的维护是个问题,网站发生变更时,需要重新开发获取、解析等;另外爬虫的爬取周期也是个问题,不同的网站爬取周期也不一样;爬虫会遇到封IP,代理池是一种方案,最好支持多机器部署;爬虫也要支持多线程;就需要一个统一的管理系统,管理系统最好是能够管理多种爬虫,在新增爬虫时,管理系统不用变更; 解
阅读全文
posted @ 2019-07-25 15:51 van28
阅读(144)
评论(0)
推荐(0)
编辑