随笔- 78 文章- 1 评论- 1 阅读- 81073

urllib-互联网爬虫

1、爬虫核心：爬取网页数据，解析数据，爬虫和反爬之间的博弈。

2、爬虫用途：数据分析/人工数据采集，社交软件冷启动，舆情监控，竞争对手监控。

3、爬虫分类

　　通用爬虫：抓取的数据大多是无用的，不能根据用户的需求来精准获取数据。

　　　　搜索引擎网站排名SEO：竞价排名

　　聚焦爬虫：根据需求，实现爬虫程序，抓取需要的数据

　　　　设计思路：确定要爬的url -->模拟浏览器通过http协议访问url，获取服务器返回返回的html代码-->解析html字符串

4、反爬手段

　　1、user-agent：用户代理，它是一个特殊的字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

　　2、代理IP：西次代理、快代理

　　　　什么是高匿名，匿名，透明代理，区别

　　　　透明代理：对方服务器可以知道你使用了代理，并且也知道你的真实IP

　　　　匿名代理：对方服务器可以知道你使用了代理，但是不知道你的真实IP

　　　　高匿名代理：对方服务器不知道你使用了代理，更不知道你的真实IP

　　3、验证码：打码平台，云打码平台、超级

　　4、动态加载网页：网站返回的是js数据并不是网页的真实数据，selenium驱动真实的浏览器发送请求。

　　5、数据加密：分析js代码

posted @ 2022-04-11 15:26 归零19 阅读(47) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· urllib基本使用1

· 2022再遇python

· 1、Urllib

· 爬虫相关概念

· Python爬虫教程—爬虫

阅读排行：
· 使用C#创建一个MCP客户端
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型，支持深度思考和联网搜索！
· ollama系列1：轻松3步本地部署deepseek，普通电脑可用
· 基于 Docker 搭建 FRP 内网穿透开源项目（很简单哒）
· 按钮权限的设计及实现

公告

昵称：归零19
园龄： 5年10个月
粉丝： 1
关注： 29

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类

随笔档案

阅读排行榜

评论排行榜

1. 数据库报死锁的问题--未解决(1)

归零19

urllib-互联网爬虫

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论