爬虫概述

之前本打算做垂直搜索时使用了python的scrapy抓取 大众点评网的数据。

现在准备做一款互联网医疗的产品。爬虫是需要抓取自然理论数据。

因此对主流的开源爬虫框架做一个介绍。

Java:Nutch,Heritrix

C++:Larbin,PolyBot

Python:Scrapy

Erlang:Ebot

Ruby:Spidr

相对来说,Nutch+Lucene+Hadoop结合得比较好。比较适合做整套的数据抓取及分析。

posted @ 2015-05-10 16:37  Lawrence.Lau  阅读(373)  评论(0编辑  收藏  举报