python爬虫学习Day1（理论篇）

初识爬虫

三大阶段

1.基础

2.全栈

3.高薪

基础阶段：

基础语法：环境安装输入输出数据类型流程控制模块

高级编程：面向对象网络编程异常处理并发编程 mysql

前端补充：html css JavaScript jQuery bootstrap ajax

爬虫阶段：

数据类型：字符串、列表、字典

流程控制：通过语句筛选获取的内容

函数：封装代码，方便重复使用

模块：导入写好的py文件，方便使用

面向对象：写爬虫时要定义一个爬虫类

网络编程：请求方式[get,post] http/https

并发编程：执行多个任务，处理大批量数据时使用

前端基础：标签对应什么类型的数据选择器 JavaScript

什么是爬虫

模拟用户向服务器发送请求/获取网页数据的一种方式

注意：模拟（不是真人，被发现会被赶出去）

爬虫核心价值

bat[b百度 a阿里 t腾讯] 中国互联网三巨头

原因：拥有最庞大的用户量和数据信息

爬虫分类

通用爬虫：

搜索引擎的核心部分，抓取系统

在互联网上进行数据抓取，收录，过滤。对数据进行整理排序，最后将数据以网页的形式显示给用户

聚焦爬虫：

在通用爬虫的基础上，爬取页面的特定数据，针对内容做筛选

增量爬虫：

检测网页数据更新情况，只获取最新的数据

爬虫的具体应用

搜索引擎

数据分析的准备工作，获取数据

抢票/秒杀脚本

爬虫刑不刑

爬虫不规范，喜提银镯子！

爬虫要求：

爬取内容正规/安全/不敏感（国家/政府/商业机密不要爬）

爬取内容不能散布、转交、售卖

爬虫不规范会变为DDoS攻击，对对方服务器造成损失，被抓住

爬虫翻车

爬虫易翻车：

反爬（网页针对爬虫的手段）

开了加速器/vpn

网络问题

谜

补充的杂七杂八介绍

爬虫：我要！

反爬：我不给！

反反爬：我就要！（硬抢）

robots协议：

爬虫不止python能做，但是python语法最简单，库比较多

常见反爬与反反爬操作

ua认证：会判断请求信息是否为真人（身份证等）

方案：请求时添加伪装

验证码识别：图像/计算题

方案：ai处理/图像识别

限制频率：一个ip访问过多/快，就拉入黑名单

方案：降低访问频率

ip限制：ip已被封禁

方案：使用代理ip

行为检测：分析用户行为，如果过于重复/精准就封禁

方案：拟人化操作，添加延时/随机性

数据动态加载：核心数据是动态加载，普通爬虫只能获取静态页面

方案：进行js逆向，找到数据来源

posted @ 2024-10-21 23:01 我想回家种地9 阅读(24) 评论(0) 编辑收藏举报来源

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 渗透学习日常笔记之安全见闻1

· 渗透学习日常笔记之安全见闻2

· python爬虫实战系列：（一）爬虫基础

· Python爬虫教程—爬虫

· python爬虫介绍

公告

昵称：我想回家种地9
园龄： 4个月
粉丝： 0
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

随笔档案

2024年10月(7)