爬虫基础简介

  • 爬虫在应用场景中的分类

    (1)通用爬虫:抓取系统重要组成部分,抓取的是一整张页面数据。

    (2)聚焦爬虫:建立在通用爬虫的基础上,抓取的是页面中的特定内容。

    (3)增量式爬虫:检测网站中的更新情况,只会抓取网站中最近更新的内容。

  • 反爬机制

    门户网站可以制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。

  • 反反爬策略

    爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获得

  • robots.txt

    君子协议,规定了该网站中哪些数据可以被爬取哪些数据不可被爬取。

    eg:在域名后加robots.txt后缀可以呈现出该网站的“君子协议”。

    

 

  • http协议

    概念:服务器和客户端进行数据交互的一种形式。

  • 常用请求头信息

    User-Agent:请求载体的身份标识

    Connection:请求完毕后,是断开连接还是保持连接

  • 常用响应头信息

    Content-Type:服务器响应客户端的数据类型

  • https协议

    概念:安全的超文本传输协议。

  • 加密方式
    1. 对称密钥加密:由客户端制定一套加密方式(密钥),然后用其对传输的数据进行加密,随后把密文与密钥一起打包传输到服务器,服务器收到后使用里面的密钥对密文进行解密。因此又称为“共享密钥加密”,但这种方式存在安全隐患,如何数据包在传输过程中被拦截,那么第三方也可以通过数据包中的密钥对密文进行解密。
    2. 非对称密钥加密:服务器首先制定一套加密方式(公钥),然后把该加密方式传输给客户端,客户端利用该密钥对数据进行加密,此时传输的数据包只是密文,服务端收到后,由于加密机制是由服务端制定的,所以其自然有对应的解密方式(私钥)。弊端:首先,在公钥传输过程中,如果数据包被第三方拦截并篡改,那么客户端收到的密钥已经是虚假的,自然用此时的密钥对数据进行加密也是徒劳;其次是数据的传输效率变慢,影响通信速度,也更加难以维护。
    3. 证书密钥加密:引入第三方机构(证书认证机构),服务端向数字证书认证机构提出公钥的申请,当该机构识别到申请者的身份并审核通过后,会对公钥做数字签名,然后分配这个已签名的公钥,并将该公钥与证书绑定在一起。然后服务器会将该数字证书发送给客户端,因为客户端也认可数字证书,客户端就可以通过数字证书中的数字签名来验证公钥的真伪,确保公钥是真实可靠的。一般情况下,证书的数字签名是很难伪造的,一旦信息无误后,客户端就会通过该公钥对报文进行加密传输,服务器收到后使用自己的私钥进行解密即可获取数据。

 

posted @ 2022-01-14 21:43  Sunshine_y  阅读(42)  评论(0编辑  收藏  举报