A web crawler, written for speed, in JAVA and Clojure

公告

A web crawler, written for speed, in JAVA and Clojure » A programmer's site

A web crawler, written for speed, in JAVA and Clojure
十一长假就快要过去了，写的web crawler也告一段落：速度能达到大概下载8万网页/小时， CPU和Mem的使用都比较满意：运行40分钟的截图：
CPU， Mem使用
网络使用（4M带宽，已极限）
按status的分布
Crawler是Rss miner的一部分， git log查看，已零星5个月，这5个月的周末都耗在上面了，其中大部分在crawler上，数次大的重构或重写。
Crawer主要以Clojure和Java完成。 Clojure可以把程序写得很简洁，利用Java可以很好的组织多线程，面向对象 + functional，感觉很不错。
开始，我用Clojure了封装JDK 的 URLConnection, 由于Blocking，为了加快速度，需要使用多线程。
有一些问题，例如：
线程少速度慢，线程多了内存受不了，我对内存较敏感，有一部分是想挑战自己，也有一部分是因为我的VPS只有512M内存，想在上面跑Rss miner, 包括一个Web server，一个Rss fetcher, 一个Web Crawler, 一个Online的实时推荐算法，筹划中….
URLConnection以Stream封装, 不是很方便。
如果各个线程分别自己保存自己下载的数据， Disk可能比较辛苦。如果用Queue送给单独的一个线程处理，又有一个额外的线程开销。
我寻找 Non-blocking的Http Client，试用了两个，都不太满意，自己写了一个，注重性能和稳定性。
实现：
4个线程，每个线程都是一个Loop，相互之间是Producer， Consumer的关系，通过Queue和Event交流
管理状态比较多的，用Java实现，比如用Tagsoup抽取链接和文本，通过规则排除部分URL
DNS prefetch, Pdnsd做DNS cache： UDP提前发送Query请求，忽略结果。
Java搭了一个简单的框架，提供两个Interface, 由Clojure实现
public interface IHttpTask {
    URI getUri();
    Map<String, Object> getHeaders();
    Object doTask(HttpResponse response) throws Exception;
    Proxy getProxy();
}
public interface IHttpTaskProvder {
    List<IHttpTask> getTasks();
}

posted on 2013-01-26 18:24 lexus 阅读(191) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

浙江省高等学校教师教育理论培训

公告

CPU， Mem使用

网络使用（4M带宽，已极限）

按status的分布

有一些问题， 例如：

实现：

有一些问题，例如：