Python爬虫：爬取西刺代理数据，讲解处理反爬措施（上篇）

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

本文章来自腾讯云作者：Python进阶者

想要学习Python？有问题得不到第一时间解决？来看看这里“1039649593”满足你的需求，资料都已经上传至文件中，可以自行下载！还有海量最新2020python学习资料。
点击查看
在这里插入图片描述

1 前言

细心的小伙伴应该知道上次小编发布了一篇关于IP代理的文章，基于Python网络爬虫技术，主要介绍了去IP代理网站上抓取可用IP，并且Python脚本实现验证IP地址的时效性，如遇到爬虫被禁的情况就可以用文章中的办法进行解决。如果没有来得及上车的小伙伴，可以戳这篇文章看看：手把手教你用免费代理ip爬数据。

接下来小编要推出的三篇文章，分别从代理网站的介绍和反爬措施介绍、数据抓取、数据可视化操作三方面进行展开，各个方面独占一文，希望对大家的学习有帮助。接下来小编先介绍代理网站及其反爬措施。

2 简介

西次代理网站是国内收录国内代理的网站，实时数量达到数十万条，上面有很多的代理IP，有的是免费的，有的是付费的。免费的一般是不可用的，即便当时好用，但是也挺不了多久，就会凉凉。
在这里插入图片描述

提取数据之后，将该数据封装成 requests 库可以识别的 header 字典, 供其调用，这样通过使用正常的数据包，我们就不用担心网站使用头部校验了。在代码中，专门定义一个函数，只需要调用该函数就可以得到该字典：
在这里插入图片描述
然后在 requests 请求网站的时候，设置这个头部即可, 代码如下：

至此，针对反爬虫的措施我们已经提前做好了准备，下一步将进行网页结构的分析以及网页数据的提取，具体实现咱们下篇文章进行详解。

4 小结

本文主要内容为对代理网站进行了基本简介，而后对代理网站的反爬虫措施进行简介。之后使用抓包工具 Fiddler 对该网站的数据包进行抓取，基于 Python 中的爬虫库 requests ，提前部署了请求头，模拟浏览器。下篇文章将带大家进行网页结构的分析以及网页数据的提取，敬请期待~

posted @ 2021-01-15 16:35 锦麟阅读(131) 评论(0) 编辑收藏举报

刷新页面返回顶部

锦麟

Python爬虫：爬取西刺代理数据，讲解处理反爬措施（上篇）

1 前言

2 简介

4 小结

公告