会员
周边
捐助
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
cloudsky
QQ群交流:微服务架构实战 181942601 nlp研究与讨论 1群598640522
大数据_人工智能交流621943289
博客园
首页
新随笔
联系
管理
订阅
2015年3月26日
分布式爬虫技术架构
摘要: SpidermanSpiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。 Spiderman主要是运用了像XPath、正则、表达式引擎等这些技术来实现数据抽取。项目结构:依赖关系如下:webmagicwebmagic采用完全模块化的设计,功...
阅读全文
posted @ 2015-03-26 19:13 skyme
阅读(15854)
评论(1)
推荐(4)
编辑
公告