【网站爬虫】八爪鱼使用和爬虫管理

　　该文是很久之前驻点其他部门写的指南，主要是利用该工具将需要的内容爬下来。唯一的缺陷就是需要登录UI界面手动抓取，相对自动化接口抓取要复杂，但是上手难度低。

　　　4.点击保存，进入我们需要采集的网址页面

　　　5.采集信息之间，希望可以理解一下采集的流程：

　　　　例如：

　　新闻1

　　新闻2

　　新闻3

….

　　　　　　这是一般新闻的栏目，如果我们需要YY条新闻时，我们需要构造循环条件，首先第一个循环是 “下一页”，让八爪鱼模拟鼠标一直点击下一页，直至到最后一页；

　　然后我们再构造一个在本页的循环条件：将本页的所有新闻全部都点击一边；

　　最后我们进入某一篇新闻，再来采集相关信息。

　　　　　　（下面有实际操作步骤）

　　　6.采集循环信息：

　　　7.最后进入到新闻时，我们才开始采集我们需要采集的内容：

　　　　8.关于内容的采集问题：采集新闻内容时，我建议选择以下这种方式最好

　　　　9.针对内容采集的自定义修改：　　

　　　　　　打开流程：

　　　10.点开流程，左侧显示流程图：可以根据需要来修改流程内容

　　　　11.修改字段内容：根据采集到对应的key名填写字段名

　　　　12.保存采集内容：点击开始采集

　　　　13.选择云采集的API：可以根据八爪鱼tigong

posted @ 2019-12-12 10:07 Xiao世阅读(1151) 评论(0) 编辑收藏举报

刷新页面返回顶部

为兴趣而进步