火车头采集器使用教程
1.在开始菜单栏下,新建分组
所属分组应该选择根节点
2.点击所新建的分组,右击选择新建任务
(1)网址采集规则
选择向导添加---->批量网址----->地址格式中输入网址(需要修改地址参数)
注意:
<1>难点(京东、淘宝等网址评价网址的获取)
在所在抓取的评论网址(推荐使用谷歌浏览器)上------>右键检查----->Network---->Js----->在评论底部的页面栏中点击2,,3----->观察Js中是否有链接跳出(正常的话应该由链接跳出,若无链接,则点击clear进行清空)------->点击copy--->copy link address
<2> 网址采集规则设置时,若所要抓取的网页就是我们输入的起始网址时,必须要点击“起始网址就是内容页网址?” 点击设置,若不点击设置,则会出现获取不到网址链接的情况。
最后点击网址采集测试,可见:
点击所采集到的任意一个列表页,进入内容采集规则的设置
(2)内容采集测试
<1>设置标签名
若要新建标签则点击“+”
<2>内容提取方式选择前后截取、勾选循环匹配,同时设置开头字符串和结尾字符串
当所要抓的内容比较复杂时,可用(*)代替中间一段的代码
<3>循环匹配的相关设置
(3)内容发布规则
<1>本地文件保存设置为开启
<2>文件保存格式设置为txt
<3>保存方式选择所有记录存于一个文件中
<4>文件模板选用电商
最后保存任务
3.运行任务
(1)勾选任务中的”发布”
(2)点击开始菜单栏下的任务控制区里的开始按钮,则可以运行任务
转自:http://www.zzarea.com/rumen/2182.html
http://board.locoy.com/?post=295
分类:
各种实用工具使用
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)