1、robots.txt协议:明确指定哪些爬虫可以爬取哪些数据

2、http协议:客户端与服务器间进行数据交互的形式,简单的请求-响应协议

请求头信息:

User-Agent:表示请求载体的身份标识

Connection:请求完毕后是断开(close)或保持连接(keep-alive)

相应头信息

Content-Type:服务器相应回客户端的数据类型(application/x-www-form-urlencoded; charset=UTF-8)

3、https协议:超文本传输安全协议(数据加密)

数据加密方式:

1)对称秘钥加密:双方使用相同的密钥,必须以绝对安全的形式传送密钥才能保证安全

2)非对称秘钥加密:需要两个密钥,公开密钥(publickey)和私有密钥(privatekey)。公钥与私钥是一对,如果用公钥对数据进行加密,只有用对应的私钥才能解密。因为加密和解密使用的是两个不同的密钥,所以这种算法叫作非对称加密算法

 缺点:通信速度低,无法保证客户端收到的公钥的正确性

3)证书秘钥加密