【网站爬虫】八爪鱼使用和爬虫管理
该文是很久之前驻点其他部门写的指南,主要是利用该工具将需要的内容爬下来。唯一的缺陷就是需要登录UI界面手动抓取,相对自动化接口抓取要复杂,但是上手难度低。
- 安装八爪鱼,再官网下载八爪鱼,然后一直next安装即可。官网下载地址:http://www.bazhuayu.com/download
- 启动八爪鱼,输入账号/密码
- 选择任务,点击新建按钮,再选择自定义采集
4.点击保存,进入我们需要采集的网址页面
5.采集信息之间,希望可以理解一下采集的流程:
例如:
新闻1
新闻2
新闻3
….
首页 上一页 下一页 共XX页,共YY条新闻
这是一般新闻的栏目,如果我们需要YY条新闻时,我们需要构造循环条件,首先第一个循环是 “下一页”,让八爪鱼模拟鼠标一直点击下一页,直至到最后一页;
然后我们再构造一个在本页的循环条件:将本页的所有新闻全部都点击一边;
最后我们进入某一篇新闻,再来采集相关信息。
(下面有实际操作步骤)
6.采集循环信息:
7.最后进入到新闻时,我们才开始采集我们需要采集的内容:
8.关于内容的采集问题:采集新闻内容时,我建议选择以下这种方式最好
9.针对内容采集的自定义修改:
打开流程:
10.点开流程,左侧显示流程图:可以根据需要来修改流程内容
11.修改字段内容:根据采集到对应的key名填写字段名
TILE_KEY_NAME |
Varchar(10) |
采集的标题对应的KEY名 |
DETAIL_KEY_NAME |
Varchar(10) |
采集的内容对应的KEY名 |
SOURCE_KEY_NAME |
Varchar(10) |
采集信息来源对应的KEY名 |
CREATED_TIME_KEY_NAME |
Varchar(10) |
采集发布时间对应的KEY名 |
ADDRESS_KEY_NAME |
|
|
12.保存采集内容:点击开始采集
13.选择云采集的API:可以根据八爪鱼tigong