一次爬虫开发过程 - 采集器调查

最近有个需求，希望能够采集一些新闻和文章发布到Dedecms中

本来想应该有比较好用的爬虫软件，最好是直接跟dede接入好的，但是调查了几款软件和引擎，都不怎么理想

火车采集器：

　　1.分收费版和免费版，免费版功能少，正则表达式替换不能使用

　　2.配置简单，规则容易编写，有现成的dede发布模块

八爪鱼：

　　1.免费版采集文章数量受限

　　2.专业版年费400，规则多

　　3.没用现成发布模块

　　4.系统兼容性不行，本地采集失败

Hawk3：

　　1.专业级别采集器，开源免费

　　2.不成熟，只支持html采集，二次开发难

　　3.没有现成发布模块

DotnetSpider：
　　1.爬虫引擎，开源免费

　　2.没有配套规则生成工具，需要编写c#定义规则

　　3.基于netcore

前两款是不开源收费软件，火车采集器免费版太弱，收费版买不起，八爪鱼采集方式是浏览器采集，兼容性比较差，速度慢

Hawk3我下载源码下来研究了几个小时，发现只支持html数据处理，而且数据库管理实现也不成熟

DotnetSpider看了文档就放弃了，规则写在代码里面，不够灵活，而且netcore启动速度慢这个问题目前还没办法解决

posted @ 2018-07-04 00:38 幻影gool 阅读(266) 评论(0) 收藏举报

刷新页面返回顶部

李健宁