python爬虫学习Day1(理论篇)
初识爬虫
三大阶段
1.基础
2.全栈
3.高薪
基础阶段:
基础语法:环境安装 输入输出 数据类型 流程控制 模块
高级编程:面向对象 网络编程 异常处理 并发编程 mysql
前端补充:html css JavaScript jQuery bootstrap ajax
爬虫阶段:
数据类型:字符串、列表、字典
流程控制:通过语句筛选获取的内容
函数:封装代码,方便重复使用
模块:导入写好的py文件,方便使用
面向对象:写爬虫时要定义一个爬虫类
网络编程:请求方式[get,post] http/https
并发编程:执行多个任务,处理大批量数据时使用
前端基础:标签对应什么类型的数据 选择器 JavaScript
什么是爬虫
模拟用户向服务器发送请求/获取网页数据的一种方式
注意:模拟(不是真人,被发现会被赶出去)
爬虫核心价值
bat[b百度 a阿里 t腾讯] 中国互联网三巨头
原因:拥有最庞大的用户量和数据信息
爬虫分类
通用爬虫:
搜索引擎的核心部分,抓取系统
在互联网上进行数据抓取,收录,过滤。对数据进行整理排序,最后将数据以网页的形式显示给用户
聚焦爬虫:
在通用爬虫的基础上,爬取页面的特定数据,针对内容做筛选
增量爬虫:
检测网页数据更新情况,只获取最新的数据
爬虫的具体应用
搜索引擎
数据分析的准备工作,获取数据
抢票/秒杀脚本
爬虫刑不刑
爬虫不规范,喜提银镯子!
爬虫要求:
爬取内容正规/安全/不敏感(国家/政府/商业机密不要爬)
爬取内容不能散布、转交、售卖
爬虫不规范会变为DDoS攻击,对对方服务器造成损失,被抓住
爬虫翻车
爬虫易翻车:
反爬(网页针对爬虫的手段)
开了加速器/vpn
网络问题
谜
补充的杂七杂八介绍
爬虫:我要!
反爬:我不给!
反反爬:我就要!(硬抢)
robots协议:
爬虫不止python能做,但是python语法最简单,库比较多
常见反爬与反反爬操作
ua认证:会判断请求信息是否为真人(身份证等)
方案:请求时添加伪装
验证码识别:图像/计算题
方案:ai处理/图像识别
限制频率:一个ip访问过多/快,就拉入黑名单
方案:降低访问频率
ip限制:ip已被封禁
方案:使用代理ip
行为检测:分析用户行为,如果过于重复/精准就封禁
方案:拟人化操作,添加延时/随机性
数据动态加载:核心数据是动态加载,普通爬虫只能获取静态页面
方案:进行js逆向,找到数据来源
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!