爬虫的理解

对于爬虫的见解，爬虫就可以通过python模仿浏览器的访问页面的样式进行操作的，它与浏览器访问的区别就是，浏览器把数据全部下载到本地进行渲染的结果，利用python爬虫就是模仿浏览器的样式通过特殊手段只抓取我们需要的数据，并且能够高效的去获取数据。

而大部分的网站是面向普通用户的，稍微有逼格的网站会对网站做一些反爬虫的措施，就是程序员在通过用python访问页面时会取不到数据，这时我们根据浏览器中的抓包操作去模仿浏览器访问页面，这其中包括了请求头请求体，一般的get请求只发送请求头就行，类似post请求就需要把请求头和请求体一起发送到客户端网站，通常类似的python操作速度较快访问量较大比较容易被网站屏蔽ip，此时我们可以利用代理的方式去帮我们请求数据。

一般的网站的爬取都有一定的规律，通常是先去访问到该网站主页，或者一些数据页，通过抓包和查看一些HTML中渲染，我们就要总结一些规律，爬虫就是需要根据这些规律去爬取数据的。