【crawler】heritrix 3 使用
2012-11-30 15:50 Loull 阅读(380) 评论(0) 编辑 收藏 举报https://webarchive.jira.com/wiki/display/Heritrix/A+Quick+Guide+to+Running+Your+First+Crawl+Job
1、下载heritrix3后解压
2、命令行到bin目录 >heritrix.cmd –a admin:admin启动
可以用heritrix --help 查看帮助
3、打开浏览器 地址 127.0.0.1:8443 即可使用,用户名密码是上面打的admin, admin (以前版本好像是127.0.0.1:8080)
我在浏览器上不能访问,查看了下异常,发现时安全http什么的,就用地址https://127.0.0.1:8443
4、在主页,create 一个job
然后再job中 edit 配置configuration
在里面的
1)、metadata.operatorContactUrl=http://www.archive.org 这儿不是seed url
2)、populate the <prop>
element of the longerOverrides
bean with the seed values for the crawl。
这人放的是seed urls
然后 save
5、依次build、launch、unpause就开始了
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步