02http和https

http

概念：clinet和Server进行数据交互的某种形式

常用的头信息：

User-Agent：请求载体的身份标识
Connection:close 请求，连接中断，与服务器失去联系，与网站无关
content-type:响应

https

概念：安全的http协议（加密）

证书：

对称密钥加密方式
非对称密钥加密方式

缺点：如何保证接收端向发送端发出公开秘钥的时候，发送端确保收到的是预先要发送的，而不会被挟持。只要是发送密钥，就有可能有被挟持的风险。非对称加密的方式效率比较低，它处理起来更为复杂，通信过程中使用就有一定的效率问题而影响通信速度

证书密钥加密方式

数字证书认证机构是客户端与服务器都可信赖的第三方机构。证书的具体传播过程如下：

1、服务器的开发者携带公开密钥，向数字证书认证机构提出公开密钥的申请，数字证书认证机构在认清申请者的身份，审核通过以后，会对开发者申请的公开密钥做数字签名，然后分配这个已签名的公开密钥，并将密钥放在证书里面，绑定在一起。

2、服务器将这份数字证书发送给客户端，因为客户端也认可证书机构，客户端可以通过数字证书中的数字签名来验证公钥的真伪，来确保服务器传过来的公开密钥是真实的。一般情况下，证书的数字签名是很难被伪造的，这取决于认证机构的公信力。一旦确认信息无误之后，客户端就会通过公钥对报文进行加密发送，服务器接收到以后用自己的私钥进行解密。

爬虫相关概述

爬虫概念：

通过编写程序模拟浏览器上网,然后让其去互联网上爬取/抓取数据的过程
模拟:浏览器就是一款纯天然的原始的爬虫工具

爬虫分类：

通用爬虫：爬取一整张页面中的数据．抓取系统（爬虫程序）
聚焦爬虫：爬取页面中局部的数据，一定是建立在通用爬虫的基础之上
增量式爬虫：用来监测网站数据更新的情况，以便爬取到网站最新更新出来的数据

风险分析

合理的的使用
爬虫风险的体现：

爬虫干扰了被访问网站的正常运营；
一爬虫抓取了受到法律保护的特定类型的数据或信息。

避免风险：

严格遵守网站设置的robots协议；
在规避反爬虫措施的同时，需要优化自己的代码，避免干扰被访问网站的正常运行;-在使用、传播抓取到的信息时，应审查所抓取的内容，如发现属于用户的个人信息、隐私或者他人的商业秘密的，应及时停止并删除。

反爬机制

反反爬机制

robots.txt协议

文本协议，在文本中指定了可爬和不可爬的数据说明，每个网站都有，如：

查看：https://www.baidu.com/robots.txt

posted @ 2022-01-06 20:12 奶酥阅读(52) 评论(0) 编辑收藏举报

刷新页面返回顶部