python爬虫00什么是爬虫

用一个自动化的程序把网站背后的程序爬取下来。

在互联网上许许多多的网站,他们都是托管在服务器上的,这些服务器24小时运行着,刻刻

等待着别人的请求。所以,爬虫首先会模拟请求,就好像你在浏览器输入网址,然后回车那样,爬虫可以用到一些HTTp库指定的服务器偷偷摸摸的发起请求,这个时候爬虫可以家长自己是浏览器,大多数服务器以为是浏览器发送请求,就直接返回数据给爬虫了。

当然,有一些网站比较精明,所以他们会建立一些反爬虫机制。

 

不同的情况下,服务器返回给我们的数据格式不一样,有HTML,JSON,二进制数据,处理完之后,保存方式也有数据库,硬盘,等等。

posted on 2020-07-15 10:20  滚雪球效应  阅读(137)  评论(0编辑  收藏  举报