摘要: SpidermanSpiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。 Spiderman主要是运用了像XPath、正则、表达式引擎等这些技术来实现数据抽取。项目结构:依赖关系如下:webmagicwebmagic采用完全模块化的设计,功... 阅读全文
posted @ 2015-03-26 19:13 skyme 阅读(15854) 评论(1) 推荐(4) 编辑