君子博学而日参省乎己 则知明而行无过矣

博客园 首页 新随笔 联系 订阅 管理

2013年4月10日 #

摘要: 上文Heritrix 3.1.0 源码解析(一)实际上是讲述Heritrix3.1.0在eclipse中的环境搭建,还属于对Heritrix3.1.0 源码解析的热身阶段,本文接着分析Heritrix 3.1.0的任务配置,Heritrix3.1.0版本与原来的Heritrix1.14.4版本很大的不同是 任务配置文件从order.xml文件转到了crawler-beans.cxml文件,而crawler-beans.cxml实际上是一个spring的容器配置文件,是用spring管理的,我们先来眼熟一下该文件的样子(这里面我配置了一个任务): # This Propertie... 阅读全文
posted @ 2013-04-10 22:29 刺猬的温驯 阅读(4241) 评论(0) 推荐(0) 编辑

摘要: Heritrix是一个比较经典的开源爬虫,本人打算用它来做一些数据采集应用网上关于heritrix系列的博文 大多是老版本的(1.14.4版本),Heritrix 3.1.0版本的文章则极其稀少由于新的版本相对老版本改动比较大,所以本人不能循老版本的套路了(Heritrix 3.1.0 版本引入spring容器管理,相对增强了对spring熟悉的开发人员的亲和性)首先介绍新的Heritrix 3.1.0 版本怎么在eclipse下搭建环境,以便于自己调试与开发网上介绍在Eclipse中搭建Heritrix 3.1.0的文章总是讲的很复杂,无疑增加了开发人员对它的敬畏感,不利于Heritrix 阅读全文
posted @ 2013-04-10 07:18 刺猬的温驯 阅读(5045) 评论(8) 推荐(0) 编辑