python处理URL带中文无法通过ascii 编码问题 -《狗嗨默示录》-

因为url中含有中文调试了一中午,饭都忘吃了,最后终于知道怎么处理URL带中文无法通过ascii 编码的情况了。

通过了解urllib.parse.quote(),发现它完全可以直接处理中英混排的URL。

 

import urllib.parse

 

url = 'http://www.example.com/api.php?text=中文'

# 不带附加参数 print('\n不带附加参数:\n%s' % quote(url))

# 附带不转换字符参数 print('\n附加不转换字符参数:\n%s' % quote(url, safe='/:?='))

运行结果:

不带附加参数:

http%3A//www.example.com/api.php%3Ftext%3D%E4%B8%AD%E6%96%87%E5%9C%A8%E8%BF%99%E9%87%8C

附加不转换字符参数:

http://www.example.com/api.php?text=%E4%B8%AD%E6%96%87%E5%9C%A8%E8%BF%99%E9%87%8C

附:
quote可用的参数如下:

quote(string, safe='/', encoding=None, errors=None)

其中的safe参数可用的范围:

reserved = ";" | "/" | "?" | ":" | "@" | "&" | "=" | "+" | "$" | ","

通过设置合适的参数即可对爬取来的混合中文的URL进行直接处理了。

posted @ 2017-08-04 18:19  李·狗嗨  阅读(286)  评论(0编辑  收藏  举报