爬虫基础简介

爬虫在应用场景中的分类

　　　　（1）通用爬虫：抓取系统重要组成部分，抓取的是一整张页面数据。

　　　　（2）聚焦爬虫：建立在通用爬虫的基础上，抓取的是页面中的特定内容。

　　　　（3）增量式爬虫：检测网站中的更新情况，只会抓取网站中最近更新的内容。

反爬机制

　　　　门户网站可以制定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取。

反反爬策略

　　　　爬虫程序可以通过制定相关的策略或者技术手段，破解门户网站中具备的反爬机制，从而可以获得

robots.txt

　　　　君子协议，规定了该网站中哪些数据可以被爬取哪些数据不可被爬取。

　　　　eg：在域名后加robots.txt后缀可以呈现出该网站的“君子协议”。

http协议

　　　　概念：服务器和客户端进行数据交互的一种形式。

常用请求头信息

　　　　User-Agent：请求载体的身份标识

　　　　Connection：请求完毕后，是断开连接还是保持连接

常用响应头信息

　　　　Content-Type：服务器响应客户端的数据类型

https协议

　　　　概念：安全的超文本传输协议。

加密方式

1. 对称密钥加密：由客户端制定一套加密方式（密钥），然后用其对传输的数据进行加密，随后把密文与密钥一起打包传输到服务器，服务器收到后使用里面的密钥对密文进行解密。因此又称为“共享密钥加密”，但这种方式存在安全隐患，如何数据包在传输过程中被拦截，那么第三方也可以通过数据包中的密钥对密文进行解密。
2. 非对称密钥加密：服务器首先制定一套加密方式（公钥），然后把该加密方式传输给客户端，客户端利用该密钥对数据进行加密，此时传输的数据包只是密文，服务端收到后，由于加密机制是由服务端制定的，所以其自然有对应的解密方式（私钥）。弊端：首先，在公钥传输过程中，如果数据包被第三方拦截并篡改，那么客户端收到的密钥已经是虚假的，自然用此时的密钥对数据进行加密也是徒劳；其次是数据的传输效率变慢，影响通信速度，也更加难以维护。
3. 证书密钥加密：引入第三方机构（证书认证机构），服务端向数字证书认证机构提出公钥的申请，当该机构识别到申请者的身份并审核通过后，会对公钥做数字签名，然后分配这个已签名的公钥，并将该公钥与证书绑定在一起。然后服务器会将该数字证书发送给客户端，因为客户端也认可数字证书，客户端就可以通过数字证书中的数字签名来验证公钥的真伪，确保公钥是真实可靠的。一般情况下，证书的数字签名是很难伪造的，一旦信息无误后，客户端就会通过该公钥对报文进行加密传输，服务器收到后使用自己的私钥进行解密即可获取数据。

posted @ 2022-01-14 21:43 Sunshine_y 阅读(42) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

TzySec

爬虫基础简介

公告