爬虫基本概念-分类及http协议

1.爬虫分类:

    1)通用爬虫:抓取系统重要组成部分,抓取的是一整张页面数据。  

    2)聚焦爬虫:建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容

    3)增量式爬虫:监测网站中数据更新的,只会抓取网站中最新更新出来的数据

 

robots.txt 协议

    查看爬取网站协议: 网站/robots.txt 

http协议:

  -概念:就是服务器和客户端进行数据交互的一种形式

常用请求头信息:

  -User-Agent:请求载体的身份标识  ,里面包含浏览器,电脑操作系统等等;

  -connection:请求完毕后,是断开连接还是保持连接

常用响应头信息:

  -content-type:服务器响应回客户端的数据类型

https协议:

  -安全的超文本传输协议

加密方式:

  对称密钥加密 :客户端将密钥和信息一起传给服务器端,服务器端对其进行解密     弊端:有可能会被第三方拦截

  非对称密钥加密  :服务器端将加密方式发送给客户端,客服端按其要求将信息加密,服务器端对其解密。传输的过程中只有密文没有密钥 ,分公钥和私钥

          弊端:效率低,公钥有可能被拦截

       证书密钥加密(https采用):加入证书认证机构,服务器端将公钥发给机构,机构对公钥进行签名(防伪)

 

posted @ 2023-01-06 12:55  一路向北d  阅读(61)  评论(0编辑  收藏  举报