一次爬虫开发过程 - 采集器调查
最近有个需求,希望能够采集一些新闻和文章发布到Dedecms中
本来想应该有比较好用的爬虫软件,最好是直接跟dede接入好的,但是调查了几款软件和引擎,都不怎么理想
火车采集器:
1.分收费版和免费版,免费版功能少,正则表达式替换不能使用
2.配置简单,规则容易编写,有现成的dede发布模块
八爪鱼:
1.免费版采集文章数量受限
2.专业版年费400,规则多
3.没用现成发布模块
4.系统兼容性不行,本地采集失败
Hawk3:
1.专业级别采集器,开源免费
2.不成熟,只支持html采集,二次开发难
3.没有现成发布模块
DotnetSpider:
1.爬虫引擎,开源免费
2.没有配套规则生成工具,需要编写c#定义规则
3.基于netcore
前两款是不开源收费软件,火车采集器免费版太弱,收费版买不起,八爪鱼采集方式是浏览器采集,兼容性比较差,速度慢
Hawk3我下载源码下来研究了几个小时,发现只支持html数据处理,而且数据库管理实现也不成熟
DotnetSpider看了文档就放弃了,规则写在代码里面,不够灵活,而且netcore启动速度慢这个问题目前还没办法解决