极速动车采集器规则说明(2)

1.上篇简要的说明了软件的使用，如需对软件详细的配置，在菜单工具-系统全局配置里面

2.这里先介绍字符引擎的规则说明

　　1.字符引擎里面的保留关键字为：“*” 和 “|”

　　2.在添加规则里面主要有：标题是你要采集的你要的内容的说明，如：你要的是网页标题你可以填写“标题”或者其他的你知道的意思。

3.返回类型：主要是你对这个内容的判断，目前支持3中，如果是循环采集一般是返回集合

　　4.步骤处理：主要是你定义的这么多规则，那些是在第一步处理，那些是第二次处理的，理论上可以无限设置下去

如：第一步我采集连接，返回集合步骤1，那么在更具返回的链接采集里面的内容那边设置规则后选择步骤2即可

5.解析引擎：和规则对应，你选择什么样的解析引擎，后面就写什么样的规则。这里说字符引擎

6.规则说明：如：软件里面自带的“腾讯新闻采集字符引擎”。第一步我们要采集所有的链接。那么规则可以这样：

href="|",就是返回所有的链接，如果我们要过滤，后面在用“|”关键字符分开然后加入关键字　　　　　　“http://news.qq.com/a”，如果我们要对地址格式在后面在加入"|"关键字，写入："http://www.baidu.com/{0}"

那么解析的地址如果为3.html ,实际的到的结果为：http://www.baidu.com/3.html

那么总结下来就是：开始|结束|过滤关键字|格式地址

那么如果是内容的话不一定一次就能好，就用到了第二个关键字*

　　如我们要标题：class="hd">*>|</h1>，我们从class="hd" 的附近找>这样就准确一些，那么如果还是没有的话呢。我们可以继续在附件找。*的意思这样就是在附近的意思

那么总结下来就是：开始1*开始2*开始N|结束1

这样我们就可以做到网页当中任何元素轻松定位，是不是很简单，以上规则和内容全部原创。.....

posted @ 2011-03-30 10:50 wangzsky 阅读(542) 评论(0) 编辑收藏举报

刷新页面返回顶部

极速动车采集器