火车头采集器教程之CMS采集规则编写
火车头采集器教程之实战视频——CMS采集规则编写
首先,我们先了解一下火车头采集器(LocoySpider)V3的基本功能,
我们今天所用到的火车头的基本功能如下
1、新建站点
2、新建任务
3、数据发布方式之“保存到软件数据库”
当然本教程是围绕“CMS采集规则编写”这一主题展开的,所以不可能面面俱到的陈表火车头采集器的功能,在此请见谅!
现在我们结合实战来给大家讲解
*********************************************************
一、新建站点
1、功能:对同一站点具有“相同采集内容规则”的采集任务进行聚合
2、好处:
a、分类明晰,便于查询、调用;
b、在站点下建立的采集任务默认继承站点采集内容规则,避免了重复编写采集规则的麻烦;
3、实战:
我们以“每日经济新闻”为例进行讲解,首先我们打开其站点 http://www.nba.com.cn,浏览其中不同栏目的文章发现这个站点的文章模式(模板)几乎是完全一致的
(当然,其中有一点小小的区别,就是有的文章段落是靠段落标记<> </P>进行划分的,有的文章段落是靠<DIV></DIV>进行划分的,这时候如果你的网站布局是采用< table></table>布局的没什么大不了的,但是如果你的网站是采用<DIV></DIV>布局的, 那么残余的DIV标记很可能会破坏你原来的布局,此种情况的解决办法我们以后再继续讨论,这里我就不再赘述了)。
好,现在我们有理由相信,我们建立一个站点的“内容规则”,就可以将这个网站的所有栏目涵盖了。
点选新建按钮,选择新建站点“每日经济新闻”
我们,先进行“标题”规则的编写
标题标签规则的编写
注意:标签起始字符串的确认,一定要注意两点,一、唯一性;二、贴身原则,即尽可能贴近目标采集区域;
开始字符串:<span class="txt181">
结束字符串:</span><span class="hui">
注意:确认字符串的唯一性:复制字符串,点按快捷键“Ctrl+F”进行查找,如果字符串为唯一,会有提示信息“找不到XXX”的提示。
为了确认标签的通用性,我们可以选择不同的文章进行测试,,这里就不做演示了/。
Html标签排除:我们选择“全选”。
注意:然对于“空格(占位符) ”我们可以有所保留,因为有些站点的“长标题”的分隔不是靠标点或者纯正意义上的空白,而是靠“占位符 ”进行分隔的,那么这时候我们就要保留“空格(占位符) ”选项。(课后看吧)
此时我们可以以点代面,直接进行“典型页面”的采集测试,测试一下采集效果,满意后,我们接下来进行文章内容的规则编写。
文章内容标签规则的编写
开始字符串:<span id="zoom" class="content">
结束字符串:<br><iframe
Html标签排除:此时我们要保留用来划分段落的一下常用字符串“<br />”、“P”、“<DIV”,并且保留文章中常用的图像“<img”。(测试)
注意:我们已经选择将"<table"排除了,但是往往有的文章中就含有一些"数据表格",这时候我们只能是顾全大局了,日后再查缺补漏。除非你能够确认你的目标采集区域不会有多余的“布局表格”出现,否则我们还是将表格标记排除为妙。
作者标签规则的编写
要点与标题标签规则的编写相同,此处不再赘述。
开始字符串:<div align="center" style=font-size:9pt>
结束字符串:[200
Html标签排除:我们选择“全选”。(测试)
时间标签编写规则
要点同上。
开始字符串:<span id="zoom" class="content">
结束字符串:<br><iframe
Html标签排除:我们选择“全选”。(测试)
出处标签规格的编写
此值,一般来说,我们默认为我们采集的目标网站,使用“固定格式的数据”进行设置,但是,你如果为了更好的体现贵网站的版权意识,那么,你在对目标网站转载的文章进行采集设置的时候,可以进行相应调整,此处不做赘述。
好了,整个站点的“内容规则”我们设置完毕,下面将进行,采集任务的设置。
**************************************************************************
二、新建采集任务
在刚刚建立的采集站点上点击鼠标右键,选择“从该站点新建任务”,,在弹出的对话框里我们察看一下“内容规则”,结果正如前边所说“在站点下建立的采集任务默认继承站点采集内容规则”,好了,我们就可以直接编写“采集网址”的规则了。
“采集网址深度”标签的编写
为了灵活方便,此项操作,我们一般都在文章的列表页面进行操作,所以我们可采用其默认值“1”,对于更深度的采集我们以后的教程中进行阐述,此处不做赘述。
开始采集网址规则的编写
点选“向导添加”在弹出的对话框中有三个选项“单页网址”、“批量/多页”、“文本导入”,一般情况,我们不会用到“文本导入”方式, 此处仅对前两种采集方式进行阐述。
我们先进行“单页网址”的设置,此处我们选择“地产”栏目进行学习。
列表页面网址为
http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74,
复制到文本域中,点选“添加”按钮,并“完成添加”。
回到“新建任务”—“采集网址”出,进行“页面内选定区域采集网址”设置
从:align='left'>首页 - 到:class=right_font>共
测试,结果40页文章页面。。。全部采集测试通过,,满意,,(此处我们不进行采集)继续往下学习。
好我们下面学习“批量/多页”
点选“向导添加”在弹出的对话框中选择“批量/多页”
为了确定列表网址的变量,我们进行如下操作:
1、我们在网页中“点选”“下一页”,,发现地址栏网址:http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=2
2、再将鼠标“指向”“下一页”发现浏览器左下方状态栏显示地址为http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=3;
3、再将鼠标“指向”“末页”发现浏览器左下方状态栏显示地址为http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=58;
4、再将鼠标“指向”“首页”发现浏览器左下方状态栏显示地址为http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=1;
http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=2
http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=3
http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=58
http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=1
这样我们可以判断“&page=(*);”为其列表网址的变量,那么我么可以设定如下:
多页类似地址网址形式为:http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=(*);
数字变化范围从1到58,间隔倍数为1;
点选“添加”按钮,并完成添加。
此处的“页面内选定区域采集网址”设置同“单页网址”“页面内选定区域采集网址”的设置,此处不做赘述。
点选“开始测试网址”,(这个过程很长,我暂停了视频录制)
当然,在实际操作当中,如果数据量大,我们也可以不去测试,直接采集,即便是因为规则的不完全适用性而造成一部分数据的丢失,我想也是可以忽略的。
此处,我只选择了2页进行采集
测试结果共有80页内容页面。
下一步骤:“数据发布方式”设置
**************************************************************************
我们选取方式一:“保存到软件数据库”,
同时,选取方式三“Web在线发布到网站”的“使用自定义发布方式”,“自定义分类ID”选择3,给任务命名为“地产”,,并“保存,更新”采集任务,鉴于我们教程刚刚开始,就不做深入学习。
回到火车头主界面,在“地产”任务上点击鼠标右键,选择“开始”,即可完成采集。
采集数据会自动发布到方式三所指向的网站的指定栏目(ID=3),同时保存到:
火车头安装目录/DATA/序号-任务名/SpiderResult.mdb
的数据库中。
哦,,昨天net对我的错误提示了我一下,,,
3个小时要写文案,录像,还得采集信息到我的网站,晕倒了N次,,,写的太仓粗了,,完全是凭感觉写的,,让大家云里雾里的一头雾水,不好意思阿,,请见谅!!!,现在更正以下:
这里的方式一、方式三是并列关系的,,可以同时选,也可以任选其一,,,如果你没有在发布模块的话,就直接采集到本地软件数据库即可。“本地软件数据库”是微软Access的,我们可以打开一下数据库对数据进行一下浏览查验。
至于方式三“Web在线发布到网站”,我会在随后的教程中进行讲解,希望大家能够耐心等待。
好了,,本教程到此为止!下一节课,再见!!!
视频下载地址
********************************************************************
火车头采集器教程之实战演练——CMS采集规则编写
Finishied by Victor QQ:99767290
********************************************************************
首先,我们先了解一下火车头采集器(LocoySpider)V3的基本功能,
我们今天所用到的火车头的基本功能如下
1、新建站点
2、新建任务
3、数据发布方式之“保存到软件数据库”
当然本教程是围绕“CMS采集规则编写”这一主题展开的,所以不可能面面俱到的陈表火车头采集器的功能,在此请见谅!
现在我们结合实战来给大家讲解
*********************************************************
一、新建站点
1、功能:对同一站点具有“相同采集内容规则”的采集任务进行聚合
2、好处:
a、分类明晰,便于查询、调用;
b、在站点下建立的采集任务默认继承站点采集内容规则,避免了重复编写采集规则的麻烦;
3、实战:
我们以“每日经济新闻”为例进行讲解,首先我们打开其站点 http://www.nba.com.cn,浏览其中不同栏目的文章发现这个站点的文章模式(模板)几乎是完全一致的
(当然,其中有一点小小的区别,就是有的文章段落是靠段落标记<> </P>进行划分的,有的文章段落是靠<DIV></DIV>进行划分的,这时候如果你的网站布局是采用< table></table>布局的没什么大不了的,但是如果你的网站是采用<DIV></DIV>布局的, 那么残余的DIV标记很可能会破坏你原来的布局,此种情况的解决办法我们以后再继续讨论,这里我就不再赘述了)。
好,现在我们有理由相信,我们建立一个站点的“内容规则”,就可以将这个网站的所有栏目涵盖了。
点选新建按钮,选择新建站点“每日经济新闻”
我们,先进行“标题”规则的编写
标题标签规则的编写
注意:标签起始字符串的确认,一定要注意两点,一、唯一性;二、贴身原则,即尽可能贴近目标采集区域;
开始字符串:<span class="txt181">
结束字符串:</span><span class="hui">
注意:确认字符串的唯一性:复制字符串,点按快捷键“Ctrl+F”进行查找,如果字符串为唯一,会有提示信息“找不到XXX”的提示。
为了确认标签的通用性,我们可以选择不同的文章进行测试,,这里就不做演示了/。
Html标签排除:我们选择“全选”。
注意:然对于“空格(占位符) ”我们可以有所保留,因为有些站点的“长标题”的分隔不是靠标点或者纯正意义上的空白,而是靠“占位符 ”进行分隔的,那么这时候我们就要保留“空格(占位符) ”选项。(课后看吧)
此时我们可以以点代面,直接进行“典型页面”的采集测试,测试一下采集效果,满意后,我们接下来进行文章内容的规则编写。
文章内容标签规则的编写
开始字符串:<span id="zoom" class="content">
结束字符串:<br><iframe
Html标签排除:此时我们要保留用来划分段落的一下常用字符串“<br />”、“P”、“<DIV”,并且保留文章中常用的图像“<img”。(测试)
注意:我们已经选择将"<table"排除了,但是往往有的文章中就含有一些"数据表格",这时候我们只能是顾全大局了,日后再查缺补漏。除非你能够确认你的目标采集区域不会有多余的“布局表格”出现,否则我们还是将表格标记排除为妙。
作者标签规则的编写
要点与标题标签规则的编写相同,此处不再赘述。
开始字符串:<div align="center" style=font-size:9pt>
结束字符串:[200
Html标签排除:我们选择“全选”。(测试)
时间标签编写规则
要点同上。
开始字符串:<span id="zoom" class="content">
结束字符串:<br><iframe
Html标签排除:我们选择“全选”。(测试)
出处标签规格的编写
此值,一般来说,我们默认为我们采集的目标网站,使用“固定格式的数据”进行设置,但是,你如果为了更好的体现贵网站的版权意识,那么,你在对目标网站转载的文章进行采集设置的时候,可以进行相应调整,此处不做赘述。
好了,整个站点的“内容规则”我们设置完毕,下面将进行,采集任务的设置。
**************************************************************************
二、新建采集任务
在刚刚建立的采集站点上点击鼠标右键,选择“从该站点新建任务”,,在弹出的对话框里我们察看一下“内容规则”,结果正如前边所说“在站点下建立的采集任务默认继承站点采集内容规则”,好了,我们就可以直接编写“采集网址”的规则了。
“采集网址深度”标签的编写
为了灵活方便,此项操作,我们一般都在文章的列表页面进行操作,所以我们可采用其默认值“1”,对于更深度的采集我们以后的教程中进行阐述,此处不做赘述。
开始采集网址规则的编写
点选“向导添加”在弹出的对话框中有三个选项“单页网址”、“批量/多页”、“文本导入”,一般情况,我们不会用到“文本导入”方式, 此处仅对前两种采集方式进行阐述。
我们先进行“单页网址”的设置,此处我们选择“地产”栏目进行学习。
列表页面网址为
http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74,
复制到文本域中,点选“添加”按钮,并“完成添加”。
回到“新建任务”—“采集网址”出,进行“页面内选定区域采集网址”设置
从:align='left'>首页 - 到:class=right_font>共
测试,结果40页文章页面。。。全部采集测试通过,,满意,,(此处我们不进行采集)继续往下学习。
好我们下面学习“批量/多页”
点选“向导添加”在弹出的对话框中选择“批量/多页”
为了确定列表网址的变量,我们进行如下操作:
1、我们在网页中“点选”“下一页”,,发现地址栏网址:http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=2
2、再将鼠标“指向”“下一页”发现浏览器左下方状态栏显示地址为http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=3;
3、再将鼠标“指向”“末页”发现浏览器左下方状态栏显示地址为http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=58;
4、再将鼠标“指向”“首页”发现浏览器左下方状态栏显示地址为http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=1;
http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=2
http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=3
http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=58
http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=1
这样我们可以判断“&page=(*);”为其列表网址的变量,那么我么可以设定如下:
多页类似地址网址形式为:http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=(*);
数字变化范围从1到58,间隔倍数为1;
点选“添加”按钮,并完成添加。
此处的“页面内选定区域采集网址”设置同“单页网址”“页面内选定区域采集网址”的设置,此处不做赘述。
点选“开始测试网址”,(这个过程很长,我暂停了视频录制)
当然,在实际操作当中,如果数据量大,我们也可以不去测试,直接采集,即便是因为规则的不完全适用性而造成一部分数据的丢失,我想也是可以忽略的。
此处,我只选择了2页进行采集
测试结果共有80页内容页面。
下一步骤:“数据发布方式”设置
**************************************************************************
我们选取方式一:“保存到软件数据库”,
同时,选取方式三“Web在线发布到网站”的“使用自定义发布方式”,“自定义分类ID”选择3,给任务命名为“地产”,,并“保存,更新”采集任务,鉴于我们教程刚刚开始,就不做深入学习。
回到火车头主界面,在“地产”任务上点击鼠标右键,选择“开始”,即可完成采集。
采集数据会自动发布到方式三所指向的网站的指定栏目(ID=3),同时保存到:
火车头安装目录/DATA/序号-任务名/SpiderResult.mdb
的数据库中。
哦,,昨天net对我的错误提示了我一下,,,
3个小时要写文案,录像,还得采集信息到我的网站,晕倒了N次,,,写的太仓粗了,,完全是凭感觉写的,,让大家云里雾里的一头雾水,不好意思阿,,请见谅!!!,现在更正以下:
这里的方式一、方式三是并列关系的,,可以同时选,也可以任选其一,,,如果你没有在发布模块的话,就直接采集到本地软件数据库即可。“本地软件数据库”是微软Access的,我们可以打开一下数据库对数据进行一下浏览查验。
至于方式三“Web在线发布到网站”,我会在随后的教程中进行讲解,希望大家能够耐心等待。
好了,,本教程到此为止!下一节课,再见!!!
视频下载地址