Python爬虫教程—爬虫

一段根据url爬取网页获取有用信息的程序，使用程序模拟浏览器向服务器发送请求获取响应信息

爬虫与反爬虫之间的博弈

User-Agent

User-Agent(用户代理)，简称UA，是一个特殊的字符串头，使得服务器能够识别客户使用的操作系统及其版本、CPU类型、浏览器及其版本、浏览器渲染引擎、浏览器语言、浏览器插件等
代理IP

西次代理

快代理

高匿名、匿名和透明代理

1. 使用透明代理，对方服务器可以知道使用了代理并且也知道真实IP

2. 使用匿名代理，对方服务器可以知道使用了代理但是不知道真实IP

3. 使用高匿名代理，对方服务器不知道使用了代理更不知道真实IP
验证码访问

验证码校验，防止爬虫

反制手段：打码平台——云打码平台、超级
动态加载页面

网站返回的是js数据，而不是网页真实的数据

selenium驱动真实的浏览器发送请求
数据加密

将数据加密返回

分析js代码

posted on 2022-04-02 12:45 天真的柏拉图阅读(688) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Head First 设计模式——观察者模式

· Head First设计模式——工厂模式

· python爬虫学习Day1（理论篇）

· Python 爬虫基础

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗？
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句：使用策略模式优化代码结构

iridescent-iu