python爬虫学习Day1(理论篇)

初识爬虫

三大阶段

        1.基础

         2.全栈

        3.高薪

基础阶段

        基础语法:环境安装 输入输出 数据类型 流程控制 模块

        高级编程:面向对象 网络编程 异常处理 并发编程 mysql

        前端补充:html css JavaScript jQuery bootstrap ajax

爬虫阶段:

        数据类型:字符串、列表、字典

        流程控制:通过语句筛选获取的内容

        函数:封装代码,方便重复使用

        模块:导入写好的py文件,方便使用

        面向对象:写爬虫时要定义一个爬虫类

        网络编程:请求方式[get,post] http/https

        并发编程:执行多个任务,处理大批量数据时使用

        前端基础:标签对应什么类型的数据 选择器 JavaScript

什么是爬虫

        模拟用户向服务器发送请求/获取网页数据的一种方式

注意:模拟(不是真人,被发现会被赶出去)

        

爬虫核心价值

        bat[b百度 a阿里 t腾讯] 中国互联网三巨头

原因:拥有最庞大的用户量和数据信息

爬虫分类

        通用爬虫:

                搜索引擎的核心部分,抓取系统

                在互联网上进行数据抓取,收录,过滤。对数据进行整理排序,最后将数据以网页的形式显示给用户

        聚焦爬虫:

                在通用爬虫的基础上,爬取页面的特定数据,针对内容做筛选

        增量爬虫:

                检测网页数据更新情况,只获取最新的数据

爬虫的具体应用

        搜索引擎

        数据分析的准备工作,获取数据

        抢票/秒杀脚本

爬虫刑不刑

        爬虫不规范,喜提银镯子!

爬虫要求:

        爬取内容正规/安全/不敏感(国家/政府/商业机密不要爬)

        爬取内容不能散布、转交、售卖

        爬虫不规范会变为DDoS攻击,对对方服务器造成损失,被抓住

爬虫翻车

爬虫易翻车:

        反爬(网页针对爬虫的手段)

        开了加速器/vpn

        网络问题

        谜

补充的杂七杂八介绍

       爬虫:我要!

        反爬:我不给!

        反反爬:我就要!(硬抢)

        robots协议:

        爬虫不止python能做,但是python语法最简单,库比较多

        

常见反爬与反反爬操作

        ua认证:会判断请求信息是否为真人(身份证等)

        方案:请求时添加伪装

        验证码识别:图像/计算题

        方案:ai处理/图像识别

        限制频率:一个ip访问过多/快,就拉入黑名单

        方案:降低访问频率

        ip限制:ip已被封禁

        方案:使用代理ip

        行为检测:分析用户行为,如果过于重复/精准就封禁

        方案:拟人化操作,添加延时/随机性

        数据动态加载:核心数据是动态加载,普通爬虫只能获取静态页面

        方案:进行js逆向,找到数据来源

posted @   我想回家种地9  阅读(24)  评论(0编辑  收藏  举报  
相关博文:
阅读排行:
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!
点击右上角即可分享
微信分享提示