摘要: 主程序的主要任务是解析和执行规则,那么首先就得设计规则文件的结构 我这里是设计了一种脚本作为规则使用,脚本有简单的语言规范: 一个简单的采集规则: 可以看到规则文件是一个树形结构,而且每个操作都是一行,只需要一行行解析就能获取到一个树形结构 然后是命令的定义: 将解析出来的Node传递给IComma 阅读全文
posted @ 2018-07-04 01:31 幻影gool 阅读(202) 评论(0) 推荐(0) 编辑
摘要: 看了之前几款采集器,发现了一些共同点 采集器一般由3个部分组成 主程序,采集规则,入库模块 主程序负责解析和采集规则 流程如下 采集规则包含了需要采集网站的url,内容提取和处理,一般由正则表达式,xpath等组成 入库模块将采集到的数据保存到数据库或发布到网站 阅读全文
posted @ 2018-07-04 01:00 幻影gool 阅读(250) 评论(0) 推荐(0) 编辑
摘要: 最近有个需求,希望能够采集一些新闻和文章发布到Dedecms中 本来想应该有比较好用的爬虫软件,最好是直接跟dede接入好的,但是调查了几款软件和引擎,都不怎么理想 火车采集器: 1.分收费版和免费版,免费版功能少,正则表达式替换不能使用 2.配置简单,规则容易编写,有现成的dede发布模块 八爪鱼 阅读全文
posted @ 2018-07-04 00:38 幻影gool 阅读(241) 评论(0) 推荐(0) 编辑