网络爬虫的类型

(1) 通用网络爬虫:也称全网爬虫,顾名思义,就是爬取的目标是互联网中的所有数据资源,主要应用于大型搜索引擎中
(2) 聚焦网络爬虫:也称主题网络爬虫,按照预先定义好的主题有选择地进行网页爬取,爬取特定的资源
(3) 增量式网络爬虫:即第二次爬取相同网页时,只爬取内容发生变化的数据,对于没有发生变化的不再爬取
(4) 深层网络爬虫:不需要登录就能获取的页面叫做表层页面,需要提交表单登录后才能获取的页面叫做深层页面,爬取深层页面需要想办法填写好表单
(5) 用户爬虫:指的是专门用来爬取互联网中用户数据的一种爬虫,价值相对较高,可以用来做抽样统计 、营销 、数据分析

 

 

 

 

 

    

posted @ 2019-03-14 15:54  孔雀东南飞  阅读(856)  评论(0编辑  收藏  举报