爬虫的理解

对于爬虫的见解,爬虫就可以通过python模仿浏览器的访问页面的样式进行操作的,它与浏览器访问的区别就是,浏览器把数据全部下载到本地进行渲染的结果,利用python爬虫就是模仿浏览器的样式通过特殊手段只抓取我们需要的数据,并且能够高效的去获取数据。

而大部分的网站是面向普通用户的,稍微有逼格的网站会对网站做一些反爬虫的措施,就是程序员在通过用python访问页面时会取不到数据,这时我们根据浏览器中的抓包操作去模仿浏览器访问页面,这其中包括了请求头请求体,一般的get请求只发送请求头就行,类似post请求就需要把请求头和请求体一起发送到客户端网站,通常类似的python操作速度较快访问量较大比较容易被网站屏蔽ip,此时我们可以利用代理的方式去帮我们请求数据。

一般的网站的爬取都有一定的规律,通常是先去访问到该网站主页,或者一些数据页,通过抓包和查看一些HTML中渲染,我们就要总结一些规律,爬虫就是需要根据这些规律去爬取数据的。

然后在模范用户访问的方式去一步步的访问需要的网页,在通过正则去匹配需要的数据。

posted @ 2018-01-10 21:01  hello沃德  阅读(320)  评论(0)    收藏  举报