爬虫概述

1.什么是爬虫

  通过编写程序模拟浏览器上网,然后让其去互联网上爬取数据的过程

 

2.爬虫的分类:

  通用爬虫:爬取一整张页面源码数据

  聚焦爬虫:爬取页面中指定的局部数据

  增量式爬虫:检测网站数据更新的情况,爬取的就是网站中最新更新出来的数据。

 

3.反爬机制:

  (1)第一个反爬机制

    robots.txt协议(防君子不防小人),规定爬虫工作者那些数据可以爬取哪些不可以

 

posted @ 2019-06-11 20:54  五仁儿  阅读(169)  评论(0编辑  收藏  举报