随笔档案「2018年7月4日」：爬虫开发过程 - 采集器主程序开发 ... - 幻影gool

2018年7月4日

摘要：主程序的主要任务是解析和执行规则，那么首先就得设计规则文件的结构我这里是设计了一种脚本作为规则使用，脚本有简单的语言规范：一个简单的采集规则：可以看到规则文件是一个树形结构，而且每个操作都是一行，只需要一行行解析就能获取到一个树形结构然后是命令的定义：将解析出来的Node传递给IComma 阅读全文

posted @ 2018-07-04 01:31 幻影gool 阅读(219) 评论(0) 推荐(0)

爬虫开发过程 - 采集器设计

摘要：看了之前几款采集器，发现了一些共同点采集器一般由3个部分组成主程序，采集规则，入库模块主程序负责解析和采集规则流程如下采集规则包含了需要采集网站的url，内容提取和处理，一般由正则表达式，xpath等组成入库模块将采集到的数据保存到数据库或发布到网站阅读全文

posted @ 2018-07-04 01:00 幻影gool 阅读(260) 评论(0) 推荐(0)

一次爬虫开发过程 - 采集器调查

摘要：最近有个需求，希望能够采集一些新闻和文章发布到Dedecms中本来想应该有比较好用的爬虫软件，最好是直接跟dede接入好的，但是调查了几款软件和引擎，都不怎么理想火车采集器： 1.分收费版和免费版，免费版功能少，正则表达式替换不能使用 2.配置简单，规则容易编写，有现成的dede发布模块八爪鱼阅读全文

posted @ 2018-07-04 00:38 幻影gool 阅读(268) 评论(0) 推荐(0)

李健宁

公告