乐之之

知而行乐,乐而行之,天道酬勤,学无止境。
爬虫笔记【1】如何爬取无HTTPS证书的网站?

  在爬虫过程中遇到很多网页都多多少少会存在证书过期的情况,那么证书过期后,该网站会被认定为不安全网站,那么怎么进行正常的数据爬取呢?

  主要从爬虫过程中常遇到的三个问题进行解决。

1、打开网页,检测出该网页连接不安全,但是想要直接访问怎么办?

  • 原因:证书过期,或其他问题。
  • 如图:

解决方案:在网页内直接键盘输入thisisunsafe,再按下回车键即可。

2、怎么在爬虫代码中解决证书验证的问题?

解决方案:

  在requests中指定verify=False,这样进行爬取网页信息时,就不会进行证书验证了。

示例:

resp = requests.get(url,headers=self.headers,verify=False)

 3、在爬取数据时,可以正常爬取,但是会有不影响爬取数据的警告,怎么去掉这些警告呢?

解决方案:

  在代码开头输入以下两行代码即可(使警告作废)。

import urllib3
urllib3.disable_warnings()

   这样就不会提示警告消息了。

posted on 2023-01-03 19:17  乐之之  阅读(615)  评论(0编辑  收藏  举报