火车头采集器教程之实战演练——CMS采集规则编写 - 榻榻米

公告

火车头采集器教程之CMS采集规则编写

火车头采集器教程之实战视频——CMS采集规则编写

********************************************************************
火车头采集器教程之实战演练——CMS采集规则编写
Finishied by Victor QQ：99767290

********************************************************************

首先，我们先了解一下火车头采集器（LocoySpider）V3的基本功能，
我们今天所用到的火车头的基本功能如下

1、新建站点

2、新建任务

3、数据发布方式之“保存到软件数据库”

当然本教程是围绕“CMS采集规则编写”这一主题展开的，所以不可能面面俱到的陈表火车头采集器的功能，在此请见谅！

现在我们结合实战来给大家讲解
*********************************************************

一、新建站点

1、功能：对同一站点具有“相同采集内容规则”的采集任务进行聚合

2、好处：

      a、分类明晰，便于查询、调用；

      b、在站点下建立的采集任务默认继承站点采集内容规则，避免了重复编写采集规则的麻烦；

3、实战：

我们以“每日经济新闻”为例进行讲解，首先我们打开其站点 http://www.nba.com.cn，浏览其中不同栏目的文章发现这个站点的文章模式（模板）几乎是完全一致的

      （当然，其中有一点小小的区别，就是有的文章段落是靠段落标记<

> </P>进行划分的，有的文章段落是靠<DIV></DIV>进行划分的，这时候如果你的网站布局是采用< table></table>布局的没什么大不了的，但是如果你的网站是采用<DIV></DIV>布局的，那么残余的DIV标记很可能会破坏你原来的布局，此种情况的解决办法我们以后再继续讨论，这里我就不再赘述了）。

好，现在我们有理由相信，我们建立一个站点的“内容规则”，就可以将这个网站的所有栏目涵盖了。

点选新建按钮，选择新建站点“每日经济新闻”

我们，先进行“标题”规则的编写

标题标签规则的编写

注意：标签起始字符串的确认，一定要注意两点，一、唯一性；二、贴身原则，即尽可能贴近目标采集区域；

开始字符串：<span class="txt181">

结束字符串：</span><span class="hui">
注意：确认字符串的唯一性：复制字符串，点按快捷键“Ctrl+F”进行查找，如果字符串为唯一，会有提示信息“找不到XXX”的提示。

为了确认标签的通用性，我们可以选择不同的文章进行测试，，这里就不做演示了/。

Html标签排除：我们选择“全选”。

注意：然对于“空格（占位符） ”我们可以有所保留，因为有些站点的“长标题”的分隔不是靠标点或者纯正意义上的空白，而是靠“占位符 ”进行分隔的，那么这时候我们就要保留“空格（占位符） ”选项。（课后看吧）

此时我们可以以点代面，直接进行“典型页面”的采集测试，测试一下采集效果，满意后，我们接下来进行文章内容的规则编写。

文章内容标签规则的编写

开始字符串：<span id="zoom" class="content">

结束字符串：<br><iframe

Html标签排除：此时我们要保留用来划分段落的一下常用字符串“<br />”、“P”、“<DIV”，并且保留文章中常用的图像“<img”。（测试）

注意：我们已经选择将"<table"排除了，但是往往有的文章中就含有一些"数据表格"，这时候我们只能是顾全大局了，日后再查缺补漏。除非你能够确认你的目标采集区域不会有多余的“布局表格”出现，否则我们还是将表格标记排除为妙。

作者标签规则的编写

要点与标题标签规则的编写相同，此处不再赘述。

开始字符串：<div align="center" style=font-size:9pt>

结束字符串：[200

Html标签排除：我们选择“全选”。（测试）

时间标签编写规则

要点同上。

开始字符串：<span id="zoom" class="content">

结束字符串：<br><iframe

Html标签排除：我们选择“全选”。（测试）

出处标签规格的编写

此值，一般来说，我们默认为我们采集的目标网站，使用“固定格式的数据”进行设置，但是，你如果为了更好的体现贵网站的版权意识，那么，你在对目标网站转载的文章进行采集设置的时候，可以进行相应调整，此处不做赘述。

好了，整个站点的“内容规则”我们设置完毕，下面将进行，采集任务的设置。

**************************************************************************

二、新建采集任务

在刚刚建立的采集站点上点击鼠标右键，选择“从该站点新建任务”，，在弹出的对话框里我们察看一下“内容规则”，结果正如前边所说“在站点下建立的采集任务默认继承站点采集内容规则”，好了，我们就可以直接编写“采集网址”的规则了。

“采集网址深度”标签的编写

为了灵活方便，此项操作，我们一般都在文章的列表页面进行操作，所以我们可采用其默认值“1”，对于更深度的采集我们以后的教程中进行阐述，此处不做赘述。

开始采集网址规则的编写

点选“向导添加”在弹出的对话框中有三个选项“单页网址”、“批量/多页”、“文本导入”，一般情况，我们不会用到“文本导入”方式，此处仅对前两种采集方式进行阐述。

我们先进行“单页网址”的设置，此处我们选择“地产”栏目进行学习。

列表页面网址为

http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74，

复制到文本域中，点选“添加”按钮，并“完成添加”。

回到“新建任务”—“采集网址”出，进行“页面内选定区域采集网址”设置

从：align='left'>首页 - 到：class=right_font>共

测试，结果40页文章页面。。。全部采集测试通过，，满意，，（此处我们不进行采集）继续往下学习。

好我们下面学习“批量/多页”

点选“向导添加”在弹出的对话框中选择“批量/多页”

为了确定列表网址的变量，我们进行如下操作：

1、我们在网页中“点选”“下一页”，，发现地址栏网址：http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=2

2、再将鼠标“指向”“下一页”发现浏览器左下方状态栏显示地址为http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=3；

3、再将鼠标“指向”“末页”发现浏览器左下方状态栏显示地址为http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=58；

4、再将鼠标“指向”“首页”发现浏览器左下方状态栏显示地址为http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=1；

      http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=2
      http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=3
      http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=58
      http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=1

这样我们可以判断“&page=(*)；”为其列表网址的变量，那么我么可以设定如下：

多页类似地址网址形式为：http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=(*)；

数字变化范围从1到58，间隔倍数为1；

点选“添加”按钮，并完成添加。

此处的“页面内选定区域采集网址”设置同“单页网址”“页面内选定区域采集网址”的设置，此处不做赘述。

点选“开始测试网址”，（这个过程很长，我暂停了视频录制）

当然，在实际操作当中，如果数据量大，我们也可以不去测试，直接采集，即便是因为规则的不完全适用性而造成一部分数据的丢失，我想也是可以忽略的。

此处，我只选择了2页进行采集

测试结果共有80页内容页面。

下一步骤：“数据发布方式”设置

**************************************************************************

我们选取方式一：“保存到软件数据库”，

同时，选取方式三“Web在线发布到网站”的“使用自定义发布方式”，“自定义分类ID”选择3，给任务命名为“地产”，，并“保存，更新”采集任务，鉴于我们教程刚刚开始，就不做深入学习。

回到火车头主界面，在“地产”任务上点击鼠标右键，选择“开始”，即可完成采集。

采集数据会自动发布到方式三所指向的网站的指定栏目(ID=3)，同时保存到：

      火车头安装目录/DATA/序号-任务名/SpiderResult.mdb

的数据库中。

      哦，，昨天net对我的错误提示了我一下，，，

      3个小时要写文案，录像，还得采集信息到我的网站，晕倒了N次

，，，写的太仓粗了，，完全是凭感觉写的，，让大家云里雾里的一头雾水，不好意思阿，，请见谅！！！

，现在更正以下：

      这里的方式一、方式三是并列关系的，，可以同时选，也可以任选其一，，，如果你没有在发布模块的话，就直接采集到本地软件数据库即可。“本地软件数据库”是微软Access的，我们可以打开一下数据库对数据进行一下浏览查验。

      至于方式三“Web在线发布到网站”，我会在随后的教程中进行讲解，希望大家能够耐心等待。

      好了，，本教程到此为止！下一节课，再见！！！

   视频下载地址

posted on 2007-07-13 23:58 榻榻米阅读(12208) 评论(1) 编辑收藏举报

刷新页面返回顶部