会员
周边
捐助
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
cloudsky
QQ群交流:微服务架构实战 181942601 nlp研究与讨论 1群598640522
大数据_人工智能交流621943289
博客园
首页
新随笔
联系
管理
订阅
2015年4月20日
基于java的分布式爬虫
摘要: 分类分布式网络爬虫包含多个爬虫,每个爬虫需要完成的任务和单个的爬行器类似,它们从互联网上下载网页,并把网页保存在本地的磁盘,从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器需要分割下载任务,可能爬虫会将自己抽取的URL发送给其他爬虫。这些爬虫可能分布在同一个局域网之中,或者分散在不同的地...
阅读全文
posted @ 2015-04-20 10:35 skyme
阅读(29262)
评论(5)
推荐(8)
编辑
公告