爬虫爬取的网址乱码

有时候一些网站爬取的网址是很奇怪的,例如:本应该是http://,但是爬取出来显示的是http%3A%2F%2F,总结下就是没有符号,没有中文。

其实这不是乱码,查了很多资料大概是用url_encode进行了编码,我们要向得到正确的网址,需要进行解码,方法如下:

from urllib import parse

url = ‘******’

url = parse.unquote(url)

 

posted @ 2020-03-21 11:36  Crays-Zhang  阅读(291)  评论(0编辑  收藏  举报