因网站实现不同,通常响应数据的编码会存在差异,导致在使用 requests 访问网站或接口获取响应结果时,获取的响应结果显示乱码,如下所示: 请求发出后,Requests 会基于 HTTP 头部对响应的编码作出有根据的推测,并使用其推测的文本编码 r.encoding 自动解码来自服务器的内容,因而 Read More
posted @ 2021-03-01 22:07 范丰平 Views(104) Comments(0) Diggs(0) Edit
在使用requests访问HTTPS网站,使用 verify=False参数关闭SSL验证后,requests会发出安全警告信息,如下图所示: 进入告警信息提示链接可知,可通过 urllib3.disable_warnings() 隐藏告警信息,并且可通过设置日志模块 logging.capture Read More
posted @ 2021-03-01 22:02 范丰平 Views(428) Comments(0) Diggs(0) Edit
Linux系统中,使用如下命令可快速去除文件或数据集中的重复行 sort -k2n {file} | uniq > a.out 方便对数据的后续处理。比如遍历行数据,统计去重后的数据量等 Read More
posted @ 2021-03-01 22:01 范丰平 Views(171) Comments(0) Diggs(0) Edit
在使用 requests 访问htts请求:https:www.baidu.com 时,报错信息如下: 请求代码如下所示: # encoding:utf-8 import requests def baidu(): r = requests.get('https://www.baidu.com') Read More
posted @ 2021-03-01 21:57 范丰平 Views(1664) Comments(0) Diggs(0) Edit
在学习爬虫时,爬虫报了如下类型的错误,即被远程主机强制关闭了链接。 分析原因: 频繁的请求服务器,导致服务器发爬虫的怀疑,被网站认定为攻击行为,最终抛出 10054异常。 解决方法: 1、在各个请求之间添加随机延时等待; 2、每次请求数据处理完成后,使用 response.close() 关闭; 3 Read More
posted @ 2021-03-01 21:48 范丰平 Views(9202) Comments(0) Diggs(0) Edit