火车采集器——采集内容到织梦CMS指定栏目中

火车采集器官网

http://www.locoy.com/download

phpStudy和织梦CMS安装教程

https://www.cnblogs.com/lqh0904/p/15333061.html

 (1)下载最新版

 

 

 (2)解压文件夹,打开exe文件,进行安装

 

 

 

 

 

 

 

 

 

 (3)登录账号,没有账号就注册

 

 

 

 (4)点击“新建分组”,选择“根节点”为所属分组,填写“分组名称”,“备注”可以不填

 

 

 (5)选中新建的分组,点击“新建任务”

 

 

 (6)以采集广东外语外贸大学官网中的“校园新闻”栏目的所有文章为例

打开栏目中多页,观察每页网址的变化:

该栏目的第1页为:https://news.gdufs.edu.cn/xyxw.htm

该栏目的第2页为:https://news.gdufs.edu.cn/xyxw/1210.htm

该栏目的第3页为:https://news.gdufs.edu.cn/xyxw/1209.htm

......

该栏目的第1210页为:https://news.gdufs.edu.cn/xyxw/2.htm

该栏目的第1211页为:https://news.gdufs.edu.cn/xyxw/1.htm

总结出的规律为:

2-1211页的地址为:https://news.gdufs.edu.cn/xyxw/[地址参数].htm

其中,地址参数从1-1210

(7)点击“向导添加”,选择“批量网址”,填写”地址格式“,点击"确定"

 

 

 

 (8)点击”添加一行“,输入第一页网址

 

 (9)总结内容页网址

打开该栏目的第1页为:https://news.gdufs.edu.cn/xyxw.htm

打开该栏目的第2页为:https://news.gdufs.edu.cn/xyxw/1210.htm

打开该栏目的第3页为:https://news.gdufs.edu.cn/xyxw/1209.htm

依次查看网页源代码(鼠标右键选中”查看网页源代码“):

Ⅰ.第一页内容网址的开头和结尾

 

 

Ⅱ.第二页内容网址的开头和结尾

 

 

Ⅲ.第三页内容网址的开头和结尾

 

得出的结论为:

开头字符串为:<ul class="pageTPList">

结尾字符串为:<div class="page">

链接都包含:.htm

 (10)填写”获取内容网址“,并点击”网址采集测试“

 

 看到一下结果代表能成功采集到所有文章的链接

 

 (11)总结文章内容

打开第一页第一篇文章:https://news.gdufs.edu.cn/info/1003/92267.htm

打开第一页第二篇文章:https://news.gdufs.edu.cn/info/1003/92260.htm

打开第一页第三篇文章:https://news.gdufs.edu.cn/info/1003/92256.htm

依次查看网页源代码(鼠标右键选中”查看网页源代码“):

Ⅰ.第一篇文章:

 

 Ⅱ.第二篇文章:

 

 Ⅲ.第三篇文章:

 

 得出的结论为:

标题开头字符串为:<title>

标题结尾字符串为:</title>

内容开头字符串为:<div class="articleCon">

内容结尾字符串为:</div></div>

(12)点击”内容采集规则“,分别填写标题和内容的”数据获取“,选择一个页面,点击”测试“

 

 

 

 

 (13)点击“3、内容发布规则”,再点击“+”,选中“DedeCMS_5.6_文章”,选中“UTF-8”,输入”网站地址“即织梦cms的后台网址,选择“数据包登录”,获取验证码,输入用户名和密码,点击“登录”

 

 

 

 (14)点击“获取列表”,选择要目标栏目即采集后文章保存在哪一个栏目,取一个“配置名”,保存

 

 (15)点击“保存为本地文件”,启用“本地文件保存”,“保存位置”就是目标栏目的保存路径,“文件模板”就是织梦CMS的文章模板,填写“任务规则名”,点击“保存”

 

 目标栏目的保存路径可以通过下方式找到:

Ⅰ.在织梦CMS进入该目标栏目,观察地址栏

发现该栏目在网站根目录下的"a/caiji__xinwennarong"

 

Ⅱ.点击phpStudy的“其它选项菜单”,选择“网站根目录”

 

 Ⅲ.进入"a/caiji__xinwennarong"

 

 

 所以,“保存位置”填写:

D:\phpStudy\PHPTutorial\WWW\a\caiji__xinwennarong 

 

“文件模板”可以通过以下方式找到:

Ⅰ.织梦后台点击“核心”——“内容模型管理”——“模板”

 

 Ⅱ.根据“文档模板”的路径,在网站根目录下寻找

 

 

 所以,“文档模板”路径为:

D:\phpStudy\PHPTutorial\WWW\templets\default\article_article.htm

(16)回到火车采集器界面的“任务列表”,选中新建的任务”test“,并选中“采网址”,“采内容”,“发布”

 

 (17)选中新建的任务”test“,并鼠标右键选择”开始“

 

 (18)因为采集内容过多,需要耐心等待

 

 (19)采集完之后,由于文章过多,还要等待所有文件下载到栏目文件夹里面,需要很长一段时间;为了赶紧完成本次笔记,回到织梦CMS后台,点击”生成“、”更新栏目HTML“,选择目标栏目,点击”开始生成HTML“

 

 (20)刷新织梦CMS网站首页,发现已上传的文章已经可以正常显示了

 

posted @ 2021-09-25 18:35  `青红造了个白`  阅读(111)  评论(0编辑  收藏  举报