1. 爬虫的概念 : 通过编写代码, 来自动控制浏览器来抓去数据

2. 爬虫协议: robots.txt 协议 , 该协议里面注明了哪些信息允许爬虫 , 哪些不允许 , 违反改协议的爬虫行为可判定为恶意爬虫 , 有承担法律责任的风险

3. HTTP协议 : 是服务器端和客户端进行信息传递的一种协议 , 只有双方遵循该相同的协议才能进行数据传输

    常用请求头: - User-Agent: 请求载体的信息(一般为所使用的浏览器相关信息); 

        - Connection: 请求完毕后, 是否保持连接的

 常用相应头: - Content-Type: 服务器相应客户端的数据类型

 

4. HTTPS协议: 安全的超文本传输协议

5. 加密方式: - 对称密钥加密: 客户端发送请求时对请求数据进行加密, 然后将密文和密钥一起发送给服务器, 服务器拿到密钥后对密文进行解密

        - 非对称密钥加密: 服务器自己定义一种加密方式, 并将此加密方式(公钥)告诉客户端, 客户端拿到公钥后在发送请求时利用公钥进行加密

      - 证书加密: 服务器将公钥交给第三方机构(证书机构)进行数字化签名, 证书机构再将带数字签名的公钥发送给客户端, 客户端再利用此公钥进行加密