爬虫爬取的网址乱码

有时候一些网站爬取的网址是很奇怪的，例如：本应该是http://，但是爬取出来显示的是http%3A%2F%2F,总结下就是没有符号，没有中文。

其实这不是乱码，查了很多资料大概是用url_encode进行了编码，我们要向得到正确的网址，需要进行解码，方法如下：

from urllib import parse

url = ‘******’

url = parse.unquote(url)

posted @ 2020-03-21 11:36 Crays-Zhang 阅读(291) 评论(0) 编辑收藏举报

刷新页面返回顶部

Crays-Zhang