Python爬虫 | 简介

什么是爬虫

　　爬虫就是通过编写程序模拟浏览器上网，然后去互联网上爬取/获取数据的过程。

爬虫的分类

- 通用爬虫：就是爬取互联网中的一整张页面内容。

- 聚焦爬虫：根据指定的需求爬取页面中指定的局部内容

- 增量式爬虫：用来检测网站数据更新的情况。只会爬取网站中最新更新出来的数据。

反爬虫：门户网站通过相应的策略和技术手段，防止爬虫程序进行网站数据的爬取。

反反爬虫：爬虫程序通过相应的策略和技术手段，破解门户网站的反爬虫手段，从而爬取到相应的数据。

robots.txt：相关的网站会将可以爬取和不可以爬取的数据声明在该协议中。特点：防君子不防小人。

posted @ 2019-08-22 19:08 PythonGirl 阅读(284) 评论(0) 编辑收藏举报

刷新页面返回顶部

iPython