火车采集器——采集内容到织梦CMS指定栏目中
火车采集器官网
phpStudy和织梦CMS安装教程
https://www.cnblogs.com/lqh0904/p/15333061.html
(1)下载最新版
(2)解压文件夹,打开exe文件,进行安装
(3)登录账号,没有账号就注册
(4)点击“新建分组”,选择“根节点”为所属分组,填写“分组名称”,“备注”可以不填
(5)选中新建的分组,点击“新建任务”
(6)以采集广东外语外贸大学官网中的“校园新闻”栏目的所有文章为例
打开栏目中多页,观察每页网址的变化:
该栏目的第1页为:https://news.gdufs.edu.cn/xyxw.htm
该栏目的第2页为:https://news.gdufs.edu.cn/xyxw/1210.htm
该栏目的第3页为:https://news.gdufs.edu.cn/xyxw/1209.htm
......
该栏目的第1210页为:https://news.gdufs.edu.cn/xyxw/2.htm
该栏目的第1211页为:https://news.gdufs.edu.cn/xyxw/1.htm
总结出的规律为:
2-1211页的地址为:https://news.gdufs.edu.cn/xyxw/[地址参数].htm
其中,地址参数从1-1210
(7)点击“向导添加”,选择“批量网址”,填写”地址格式“,点击"确定"
(8)点击”添加一行“,输入第一页网址
(9)总结内容页网址
打开该栏目的第1页为:https://news.gdufs.edu.cn/xyxw.htm
打开该栏目的第2页为:https://news.gdufs.edu.cn/xyxw/1210.htm
打开该栏目的第3页为:https://news.gdufs.edu.cn/xyxw/1209.htm
依次查看网页源代码(鼠标右键选中”查看网页源代码“):
Ⅰ.第一页内容网址的开头和结尾
Ⅱ.第二页内容网址的开头和结尾
Ⅲ.第三页内容网址的开头和结尾
得出的结论为:
开头字符串为:<ul class="pageTPList">
结尾字符串为:<div class="page">
链接都包含:.htm
(10)填写”获取内容网址“,并点击”网址采集测试“
看到一下结果代表能成功采集到所有文章的链接
(11)总结文章内容
打开第一页第一篇文章:https://news.gdufs.edu.cn/info/1003/92267.htm
打开第一页第二篇文章:https://news.gdufs.edu.cn/info/1003/92260.htm
打开第一页第三篇文章:https://news.gdufs.edu.cn/info/1003/92256.htm
依次查看网页源代码(鼠标右键选中”查看网页源代码“):
Ⅰ.第一篇文章:
Ⅱ.第二篇文章:
Ⅲ.第三篇文章:
得出的结论为:
标题开头字符串为:<title>
标题结尾字符串为:</title>
内容开头字符串为:<div class="articleCon">
内容结尾字符串为:</div></div>
(12)点击”内容采集规则“,分别填写标题和内容的”数据获取“,选择一个页面,点击”测试“
(13)点击“3、内容发布规则”,再点击“+”,选中“DedeCMS_5.6_文章”,选中“UTF-8”,输入”网站地址“即织梦cms的后台网址,选择“数据包登录”,获取验证码,输入用户名和密码,点击“登录”
(14)点击“获取列表”,选择要目标栏目即采集后文章保存在哪一个栏目,取一个“配置名”,保存
(15)点击“保存为本地文件”,启用“本地文件保存”,“保存位置”就是目标栏目的保存路径,“文件模板”就是织梦CMS的文章模板,填写“任务规则名”,点击“保存”
目标栏目的保存路径可以通过下方式找到:
Ⅰ.在织梦CMS进入该目标栏目,观察地址栏
发现该栏目在网站根目录下的"a/caiji__xinwennarong"
Ⅱ.点击phpStudy的“其它选项菜单”,选择“网站根目录”
Ⅲ.进入"a/caiji__xinwennarong"
所以,“保存位置”填写:
D:\phpStudy\PHPTutorial\WWW\a\caiji__xinwennarong
“文件模板”可以通过以下方式找到:
Ⅰ.织梦后台点击“核心”——“内容模型管理”——“模板”
Ⅱ.根据“文档模板”的路径,在网站根目录下寻找
所以,“文档模板”路径为:
D:\phpStudy\PHPTutorial\WWW\templets\default\article_article.htm
(16)回到火车采集器界面的“任务列表”,选中新建的任务”test“,并选中“采网址”,“采内容”,“发布”
(17)选中新建的任务”test“,并鼠标右键选择”开始“
(18)因为采集内容过多,需要耐心等待
(19)采集完之后,由于文章过多,还要等待所有文件下载到栏目文件夹里面,需要很长一段时间;为了赶紧完成本次笔记,回到织梦CMS后台,点击”生成“、”更新栏目HTML“,选择目标栏目,点击”开始生成HTML“
(20)刷新织梦CMS网站首页,发现已上传的文章已经可以正常显示了