【网站爬虫】八爪鱼使用和爬虫管理

  该文是很久之前驻点其他部门写的指南,主要是利用该工具将需要的内容爬下来。唯一的缺陷就是需要登录UI界面手动抓取,相对自动化接口抓取要复杂,但是上手难度低。

  1. 安装八爪鱼,再官网下载八爪鱼,然后一直next安装即可。官网下载地址:http://www.bazhuayu.com/download
  2. 启动八爪鱼,输入账号/密码
  3. 选择任务,点击新建按钮,再选择自定义采集

    

    

 

 

 

   4.点击保存,进入我们需要采集的网址页面

    

 

   5.采集信息之间,希望可以理解一下采集的流程:

       例如:

                      新闻1

                      新闻2

                      新闻3

                             ….

                                                                   首页  上一页  下一页   共XX页,共YY条新闻

      

      这是一般新闻的栏目,如果我们需要YY条新闻时,我们需要构造循环条件,首先第一个循环是 “下一页”,让八爪鱼模拟鼠标一直点击下一页,直至到最后一页;

             然后我们再构造一个在本页的循环条件:将本页的所有新闻全部都点击一边;

             最后我们进入某一篇新闻,再来采集相关信息。

      (下面有实际操作步骤)

   6.采集循环信息:

    

 

 

     

 

 

     

 

  

   7.最后进入到新闻时,我们才开始采集我们需要采集的内容:

      

 

      

 

 

     

    8.关于内容的采集问题:采集新闻内容时,我建议选择以下这种方式最好

       

 

      

 

 

     

    9.针对内容采集的自定义修改:  

      打开流程:

 

      

 

      

 

 

       

 

 

    10.点开流程,左侧显示流程图:可以根据需要来修改流程内容

      

        

 

       

 

    

    11.修改字段内容:根据采集到对应的key名填写字段名

      

TILE_KEY_NAME

Varchar(10)

采集的标题对应的KEY

DETAIL_KEY_NAME

Varchar(10)

采集的内容对应的KEY

SOURCE_KEY_NAME

Varchar(10)

采集信息来源对应的KEY

CREATED_TIME_KEY_NAME

Varchar(10)

采集发布时间对应的KEY

ADDRESS_KEY_NAME

 

 

    12.保存采集内容:点击开始采集

        

 

     

    13.选择云采集的API:可以根据八爪鱼tigong

        

posted @ 2019-12-12 10:07  Xiao世  阅读(1066)  评论(0编辑  收藏  举报