火车头采集器教程之CMS采集规则编写

火车头采集器教程之实战视频——CMS采集规则编写

********************************************************************
火车头采集器教程之实战演练——CMS采集规则编写
Finishied by Victor QQ:99767290


********************************************************************


    首先,我们先了解一下火车头采集器(LocoySpider)V3的基本功能,
    我们今天所用到的火车头的基本功能如下
   
    1、新建站点
   
    2、新建任务
   
    3、数据发布方式之“保存到软件数据库”
   
    当然本教程是围绕“CMS采集规则编写”这一主题展开的,所以不可能面面俱到的陈表火车头采集器的功能,在此请见谅!

    现在我们结合实战来给大家讲解
*********************************************************

一、新建站点

    1、功能:对同一站点具有“相同采集内容规则”的采集任务进行聚合
   
    2、好处:
        
        a、分类明晰,便于查询、调用;
        
        b、在站点下建立的采集任务默认继承站点采集内容规则,避免了重复编写采集规则的麻烦;
   
    3、实战:
   
    我们以“每日经济新闻”为例进行讲解,首先我们打开其站点 http://www.nba.com.cn,浏览其中不同栏目的文章发现这个站点的文章模式(模板)几乎是完全一致的

        (当然,其中有一点小小的区别,就是有的文章段落是靠段落标记<> </P>进行划分的,有的文章段落是靠<DIV></DIV>进行划分的,这时候如果你的网站布局是采用< table></table>布局的没什么大不了的,但是如果你的网站是采用<DIV></DIV>布局的, 那么残余的DIV标记很可能会破坏你原来的布局,此种情况的解决办法我们以后再继续讨论,这里我就不再赘述了)。

    好,现在我们有理由相信,我们建立一个站点的“内容规则”,就可以将这个网站的所有栏目涵盖了。

    点选新建按钮,选择新建站点“每日经济新闻”

    我们,先进行“标题”规则的编写

   
    标题标签规则的编写

    注意:标签起始字符串的确认,一定要注意两点,一、唯一性;二、贴身原则,即尽可能贴近目标采集区域;

    开始字符串:<span class="txt181">

    结束字符串:</span><span class="hui">
注意:确认字符串的唯一性:复制字符串,点按快捷键“Ctrl+F”进行查找,如果字符串为唯一,会有提示信息“找不到XXX”的提示。

为了确认标签的通用性,我们可以选择不同的文章进行测试,,这里就不做演示了/。   


    Html标签排除:我们选择“全选”。

    注意:然对于“空格(占位符) ”我们可以有所保留,因为有些站点的“长标题”的分隔不是靠标点或者纯正意义上的空白,而是靠“占位符 ”进行分隔的,那么这时候我们就要保留“空格(占位符) ”选项。(课后看吧)

    此时我们可以以点代面,直接进行“典型页面”的采集测试,测试一下采集效果,满意后,我们接下来进行文章内容的规则编写。

    文章内容标签规则的编写

    开始字符串:<span id="zoom" class="content">

    结束字符串:<br><iframe

    Html标签排除:此时我们要保留用来划分段落的一下常用字符串“<br />”、“P”、“<DIV”,并且保留文章中常用的图像“<img”。(测试)

    注意:我们已经选择将"<table"排除了,但是往往有的文章中就含有一些"数据表格",这时候我们只能是顾全大局了,日后再查缺补漏。除非你能够确认你的目标采集区域不会有多余的“布局表格”出现,否则我们还是将表格标记排除为妙。

    作者标签规则的编写

    要点与标题标签规则的编写相同,此处不再赘述。

    开始字符串:<div align="center" style=font-size:9pt>

    结束字符串:[200

    Html标签排除:我们选择“全选”。(测试)

   
    时间标签编写规则

    要点同上。

    开始字符串:<span id="zoom" class="content">

    结束字符串:<br><iframe

    Html标签排除:我们选择“全选”。(测试)

    出处标签规格的编写

   
    此值,一般来说,我们默认为我们采集的目标网站,使用“固定格式的数据”进行设置,但是,你如果为了更好的体现贵网站的版权意识,那么,你在对目标网站转载的文章进行采集设置的时候,可以进行相应调整,此处不做赘述。

好了,整个站点的“内容规则”我们设置完毕,下面将进行,采集任务的设置。

**************************************************************************


二、新建采集任务

    在刚刚建立的采集站点上点击鼠标右键,选择“从该站点新建任务”,,在弹出的对话框里我们察看一下“内容规则”,结果正如前边所说“在站点下建立的采集任务默认继承站点采集内容规则”,好了,我们就可以直接编写“采集网址”的规则了。

    “采集网址深度”标签的编写

    为了灵活方便,此项操作,我们一般都在文章的列表页面进行操作,所以我们可采用其默认值“1”,对于更深度的采集我们以后的教程中进行阐述,此处不做赘述。

    开始采集网址规则的编写

    点选“向导添加”在弹出的对话框中有三个选项“单页网址”、“批量/多页”、“文本导入”,一般情况,我们不会用到“文本导入”方式,    此处仅对前两种采集方式进行阐述。

    我们先进行“单页网址”的设置,此处我们选择“地产”栏目进行学习。

    列表页面网址为

    http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74

    复制到文本域中,点选“添加”按钮,并“完成添加”。


    回到“新建任务”—“采集网址”出,进行“页面内选定区域采集网址”设置

    从:align='left'>首页 - 到:class=right_font>共

    测试,结果40页文章页面。。。全部采集测试通过,,满意,,(此处我们不进行采集)继续往下学习。

    好我们下面学习“批量/多页

    点选“向导添加”在弹出的对话框中选择“批量/多页

    为了确定列表网址的变量,我们进行如下操作:

    1、我们在网页中“点选”“下一页”,,发现地址栏网址:http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=2

    2、再将鼠标“指向”“下一页”发现浏览器左下方状态栏显示地址为http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=3

    3、再将鼠标“指向”“末页”发现浏览器左下方状态栏显示地址为http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=58

    4、再将鼠标“指向”“首页”发现浏览器左下方状态栏显示地址为http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=1

        http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=2
        http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=3
        http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=58
        http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=1

    这样我们可以判断“&page=(*);”为其列表网址的变量,那么我么可以设定如下:

    多页类似地址网址形式为:http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=(*)
   

    数字变化范围从1到58,间隔倍数为1;

    点选“添加”按钮,并完成添加。

    此处的“页面内选定区域采集网址”设置同“单页网址”“页面内选定区域采集网址”的设置,此处不做赘述。

    点选“开始测试网址”,(这个过程很长,我暂停了视频录制)

    当然,在实际操作当中,如果数据量大,我们也可以不去测试,直接采集,即便是因为规则的不完全适用性而造成一部分数据的丢失,我想也是可以忽略的。

    此处,我只选择了2页进行采集

测试结果共有80页内容页面。

    下一步骤:“数据发布方式”设置


**************************************************************************

    我们选取方式一:“保存到软件数据库”,

    同时,选取方式三“Web在线发布到网站”的“使用自定义发布方式”,“自定义分类ID”选择3,给任务命名为“地产”,,并“保存,更新”采集任务,鉴于我们教程刚刚开始,就不做深入学习。

    回到火车头主界面,在“地产”任务上点击鼠标右键,选择“开始”,即可完成采集。

    采集数据会自动发布到方式三所指向的网站的指定栏目(ID=3),同时保存到

        火车头安装目录/DATA/序号-任务名/SpiderResult.mdb

    的数据库中。

        哦,,昨天net对我的错误提示了我一下,,,

        3个小时要写文案,录像,还得采集信息到我的网站,晕倒了N次,,,
写的太仓粗了,,完全是凭感觉写的,,让大家云里雾里的一头雾水,不好意思阿,,请见谅!!!,现在更正以下:

        这里的方式一、方式三是并列关系的,,可以同时选,也可以任选其一,,,如果你没有在发布模块的话,就直接采集到本地软件数据库即可。“本地软件数据库”是微软Access的,我们可以打开一下数据库对数据进行一下浏览查验。

        至于方式三“
Web在线发布到网站”,我会在随后的教程中进行讲解,希望大家能够耐心等待。


        好了,,本教程到此为止!下一节课,再见!!!

       视频下载地址

posted on 2007-07-13 23:58  榻榻米  阅读(12182)  评论(1编辑  收藏  举报