爬虫概述-(路飞学城)

1. 爬虫分类

  • 通用爬虫: 爬取系统重要组成部分。抓取的是一整张页面数据;
  • 聚焦爬虫: 建立在通用爬虫的基础上,抓取的是页面中特定的局部内容。
  • 增量式爬虫: 检测网站中数据更新情乱,只会抓取网站中最新更新出来的数据。

反爬机制:

通过制定相应的策略或技术手段,防止爬虫程序进行网站数据的爬取;

反反爬策略:

爬虫程序可以通过指定相应的策略和技术手段,破解网站中具备的反爬机制,从而获取门户网站的数据;

robots协议:君子协议
例子: https://www.bilibili.com/robots.txt

2. http协议和https协议

http协议:

服务器和客户端进行数据交互的一种形式,是一种明文的传输方式

常用的请求表信息:

  • user-agent: 客户端浏览器的身份标识;
  • connection: 请求完毕后,连接断开或保持;

常用响应头消息:

  • content-type:服务器响应返回的数据类型。

https协议:

安全的超文本传输协议,在HTTP的基础上,进行了加密操作;
加密方式:

  • 对称密钥加密:加密和解密使用相同的密钥;
  • 非对称密钥加密:公钥加密,私钥解密;
  • 证书认证加密:可信赖的第三方机构。

证书密钥加密流程:
1.服务器开发者携带公钥,向CA(数字证书认证中心)提出公钥申请,CA在审核通过之后,对开发者的公钥进行数字签名,然后分配证书;
2.客户端可以通过数字证书中数字签名来验证公钥的真伪性。确认信息无误之后,客户端就会通过公钥对请求信息和自己的公钥进行加密传送,服务器接受到以后使用私钥解密;
3.服务器端接受请求后解密,并使用客户端的公钥对数据进行加密,然后发送给客户端,客户端再通过自己的私钥进行报文的解密。

posted @   hanqi  阅读(298)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
点击右上角即可分享
微信分享提示