摘要:
控制器类必须传一个类型为CrawlConfig的参数,用于配置crawler4j。下面描述了一些关于配置的细节。 抓取深度 默认情况下没有抓取深度的限制。可以通过配置来限制深度,比如,你有个种子页面A连接到B,B又连接到C,C又连接到D。结构如下: A --> B --> C --> D A是种子页 阅读全文
摘要:
该事例演示了如何在多线程中统计和分析数据; 首先建一个状态实体类CrawlStat: 再建一个LocalDataCollectorCrawler类: 最后建一个控制器LocalDataCollectorController: 打印结果: 阅读全文
摘要:
该实例主要演示下如何爬取指定网站的图片; 代码中有详细注释: 首先写一个ImageCrawler类: 再写一个图片爬虫控制器:ImageCrawlController 阅读全文
摘要:
项目是基于maven 结构的。 首先我们在pom.xml中加入log4j以及log4j驱动类支持; <groupId>edu.uci.ics</groupId> <artifactId>crawler4j</artifactId> <version>4.2</version> </dependenc 阅读全文