爬虫出现乱码的一个特例

爬取猫眼电影排行,无法正常显示中文,出现乱码

         发现,在爬取百度[https://www.baidu.com/]时出现乱码,通过编码->解码,

import requests
url='https://www.baidu.com/'
html=requests.get(url).text.encode('iso-8859-1').decode('utf-8') 
print(html)

          可以解决乱码问题。但是不能指定headers,否则还是会出现乱码

      • 爬取猫眼电影时必须指定headers,否则会出现403报错。上述方法不能解决爬取时出现乱码的问题。
    • 发现
      • 爬虫时:有时出现乱码,有时正常显示中文。
      • 不使用爬虫,人工复制链接打开网站时时:(与爬虫时的两种情况对应,也出现两种情况)先弹出验证界面之后才显示猫眼电影网站;直接显示猫眼电影排行网站
    •  最终解决方法:出现乱码时,人工复制链接打开网站,此时出现了验证界面,完成验证界面,此时显示出了要爬取的网站。之后,运行.py文件,不再出现乱码。
    • 上述以百度为例的乱码报错问题可能具有某种程度上的普遍性,以猫眼电影排行为例的乱码报错问题应该是个例问题。

 

 

posted on 2020-01-26 18:45  ifran  阅读(514)  评论(0编辑  收藏  举报

导航