三 . 爬虫 url编码
一 . url编码
1.url编码本质
其实url本质就是将中文字符串进行utf8编码,然后得到编码后的对象转换字符串去掉开头的b'以及末尾的',
然后再将\x转换成%,再将里面内容x变成e最后将字符串小写变成
2.url编码流程
#第一步进行编码 a= '宝马' a= a.encode('utf8') print(a) # b'\xe5\xae\x9d\xe9\xa9\xac' #第二步进行转字符串去除头尾 a = str(a).strip("b'") #strip里面的值不是匹配而是有无 print(a) # \xe5\xae\x9d\xe9\xa9\xac #第三步将\转换成% a = a.replace('\\','%') print(a) # %xe5%xae%x9d%xe9%xa9%xac #第四部将x写变成e a = a.replace('x','e') print(a) # %ee5%eae%e9d%ee9%ea9%eac #第五步将小写变成大写 a = a.upper() print(a) # %EE5%EAE%E9D%EE9%EA9%EAC #一步到位 a=str(a.encode('utf8')).strip("b'").replace('\\x','%').replace('x','e').upper() print(a) %EE5%EAE%E9D%EE9%EA9%EAC #结果%E6%88%91 #不行你可以访问 https://www.baidu.com/s?wd=%EE5%EAE%E9D%EE9%EA9%EAC <======> https://www.baidu.com/s?wd=宝马 #看看是不是一样)
3. python中调用库进行url编码和解码
from urllib import parse # 编码 str1 = '宝马1' str2 = parse.quote(str1) print(str2) # %E5%AE%9D%E9%A9%AC # 解码 str1 = '%E5%AE%9D%E9%A9%AC' str2 = parse.unquote(str1) print(str2) # 宝马1