爬虫概述-(路飞学城)
1. 爬虫分类
- 通用爬虫: 爬取系统重要组成部分。抓取的是一整张页面数据;
- 聚焦爬虫: 建立在通用爬虫的基础上,抓取的是页面中特定的局部内容。
- 增量式爬虫: 检测网站中数据更新情乱,只会抓取网站中最新更新出来的数据。
反爬机制:
通过制定相应的策略或技术手段,防止爬虫程序进行网站数据的爬取;
反反爬策略:
爬虫程序可以通过指定相应的策略和技术手段,破解网站中具备的反爬机制,从而获取门户网站的数据;
robots协议:君子协议
例子: https://www.bilibili.com/robots.txt
2. http协议和https协议
http协议:
服务器和客户端进行数据交互的一种形式,是一种明文的传输方式
常用的请求表信息:
- user-agent: 客户端浏览器的身份标识;
- connection: 请求完毕后,连接断开或保持;
常用响应头消息:
- content-type:服务器响应返回的数据类型。
https协议:
安全的超文本传输协议,在HTTP的基础上,进行了加密操作;
加密方式:
- 对称密钥加密:加密和解密使用相同的密钥;
- 非对称密钥加密:公钥加密,私钥解密;
- 证书认证加密:可信赖的第三方机构。
证书密钥加密流程:
1.服务器开发者携带公钥,向CA(数字证书认证中心)提出公钥申请,CA在审核通过之后,对开发者的公钥进行数字签名,然后分配证书;
2.客户端可以通过数字证书中数字签名来验证公钥的真伪性。确认信息无误之后,客户端就会通过公钥对请求信息和自己的公钥进行加密传送,服务器接受到以后使用私钥解密;
3.服务器端接受请求后解密,并使用客户端的公钥对数据进行加密,然后发送给客户端,客户端再通过自己的私钥进行报文的解密。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了