极速动车采集器规则说明(2)

1.上篇简要的说明了软件的使用,如需对软件详细的配置,在菜单 工具-系统全局配置里面

2.这里先介绍字符引擎的规则说明

  1.字符引擎里面的保留关键字为:“*” 和 “|

  2.在添加规则里面主要有:标题是你要采集的你要的内容的说明,如:你要的是网页标题你可以填写“标题”或者其他的你知道的意思。

      3.返回类型:主要是你对这个内容的判断,目前支持3中,如果是循环采集一般是返回集合

  4.步骤处理:主要是你定义的这么多规则,那些是在第一步处理,那些是第二次处理的,理论上可以无限设置下去

        如:第一步我采集连接,返回集合步骤1,那么在更具返回的链接采集里面的内容那边设置规则后选择步骤2即可

      5.解析引擎:和规则对应,你选择什么样的解析引擎,后面就写什么样的规则。这里说字符引擎

      6.规则说明:如:软件里面自带的“腾讯新闻采集字符引擎”。第一步我们要采集所有的链接。那么规则可以这样:

      href="|",就是返回所有的链接,如果我们要过滤,后面在用“|”关键字符分开然后加入关键字      “http://news.qq.com/a”,如果我们要对地址格式在后面在加入"|"关键字,写入:"http://www.baidu.com/{0}"

那么解析的地址如果为3.html ,实际的到的结果为:http://www.baidu.com/3.html

那么总结下来就是:开始|结束|过滤关键字|格式地址

那么如果是内容的话不一定一次就能好,就用到了第二个关键字*

  如我们要标题:class="hd">*>|</h1>,我们从class="hd" 的附近找>这样就准确一些,那么如果还是没有的话呢。我们可以继续在附件找。*的意思这样就是在附近的意思

      那么总结下来就是:开始1*开始2*开始N|结束1

       这样我们就可以做到网页当中任何元素轻松定位,是不是很简单,以上规则和内容全部原创。.....

围观上一篇

posted @ 2011-03-30 10:50  wangzsky  阅读(542)  评论(0编辑  收藏  举报