乐之之

知而行乐,乐而行之,天道酬勤,学无止境。

2023年1月3日

爬虫笔记【2】如何在爬虫中进行HTTP Basic Authentication所适合的用户名和密码认证?

摘要: 登陆网页前遇到的要求输入用户名和密码的程序,通常称为身份认证程序。HTTP 认证可以保护一个作用域(成为一个 realm)内的资源不受非法访问。当一个请求要求取得受保护的资源时,网页服务器回应一个 401 Unauthorized error 错误码。这个回应包含了一个指定验证方法和领域的 WWW- 阅读全文

posted @ 2023-01-03 20:04 乐之之 阅读(315) 评论(0) 推荐(0) 编辑
爬虫笔记【1】如何爬取无HTTPS证书的网站?

摘要: 在爬虫过程中遇到很多网页都多多少少会存在证书过期的情况,那么证书过期后,该网站会被认定为不安全网站,那么怎么进行正常的数据爬取呢? 主要从爬虫过程中常遇到的三个问题进行解决。 1、打开网页,检测出该网页连接不安全,但是想要直接访问怎么办? 原因:证书过期,或其他问题。 如图: 解决方案:在网页内直接 阅读全文

posted @ 2023-01-03 19:17 乐之之 阅读(504) 评论(0) 推荐(0) 编辑