08 2014 档案

做网络爬虫的一些辅助工具
摘要:firefox chromefirebug xpath checkerMTracer 2.1带注册码 链接:http://pan.baidu.com/s/1o67H9VW 密码:14noAltovaXMLSpy2006 阅读全文

posted @ 2014-08-29 10:29 雨渐渐 阅读(450) 评论(0) 推荐(0) 编辑

爬虫配置文件
摘要:××××.com //ul[@data-key='region']/li/a/@href //ul[@class='detail']/li[1]/a[1]/@href //div[@class=... 阅读全文

posted @ 2014-08-29 10:21 雨渐渐 阅读(294) 评论(0) 推荐(0) 编辑

nutch 很多url unfetched的原因
摘要:bin/hadoop jar apache-nutch-1.7.job org.apache.nutch.crawl.CrawlDbReader crawl/crawldb -stats -sort会发现好多unfetched,原因是:nutch-default.xml对generate的时候进行... 阅读全文

posted @ 2014-08-28 19:51 雨渐渐 阅读(212) 评论(0) 推荐(0) 编辑

nutch 索引
摘要:nutch开发环境搭建 nutch-1.3导入eclipse nutch-1.7导入eclipsenutch部署 nutch-1.3linux下部署 nutch-1.7编译 nutch-1.2与nutch1.3部署的改变 nutch-2.2.1 hadoop-1.2.1 hbase-0.92.1集群... 阅读全文

posted @ 2014-08-28 17:00 雨渐渐 阅读(242) 评论(0) 推荐(0) 编辑

导航