一次爬虫开发过程 - 采集器调查

最近有个需求,希望能够采集一些新闻和文章发布到Dedecms中

本来想应该有比较好用的爬虫软件,最好是直接跟dede接入好的,但是调查了几款软件和引擎,都不怎么理想

 

火车采集器:

  1.分收费版和免费版,免费版功能少,正则表达式替换不能使用

  2.配置简单,规则容易编写,有现成的dede发布模块

八爪鱼:

  1.免费版采集文章数量受限

  2.专业版年费400,规则多

  3.没用现成发布模块

  4.系统兼容性不行,本地采集失败

Hawk3:

  1.专业级别采集器,开源免费

  2.不成熟,只支持html采集,二次开发难

  3.没有现成发布模块

DotnetSpider:
  1.爬虫引擎,开源免费

  2.没有配套规则生成工具,需要编写c#定义规则

  3.基于netcore

 

前两款是不开源收费软件,火车采集器免费版太弱,收费版买不起,八爪鱼采集方式是浏览器采集,兼容性比较差,速度慢

Hawk3我下载源码下来研究了几个小时,发现只支持html数据处理,而且数据库管理实现也不成熟

DotnetSpider看了文档就放弃了,规则写在代码里面,不够灵活,而且netcore启动速度慢这个问题目前还没办法解决

 

posted @ 2018-07-04 00:38  幻影gool  阅读(238)  评论(0编辑  收藏  举报