爬虫爬取的网址乱码
有时候一些网站爬取的网址是很奇怪的,例如:本应该是http://,但是爬取出来显示的是http%3A%2F%2F,总结下就是没有符号,没有中文。
其实这不是乱码,查了很多资料大概是用url_encode进行了编码,我们要向得到正确的网址,需要进行解码,方法如下:
from urllib import parse url = ‘******’ url = parse.unquote(url)
有时候一些网站爬取的网址是很奇怪的,例如:本应该是http://,但是爬取出来显示的是http%3A%2F%2F,总结下就是没有符号,没有中文。
其实这不是乱码,查了很多资料大概是用url_encode进行了编码,我们要向得到正确的网址,需要进行解码,方法如下:
from urllib import parse url = ‘******’ url = parse.unquote(url)