python处理URL带中文无法通过ascii 编码问题 -《狗嗨默示录》-

因为url中含有中文调试了一中午，饭都忘吃了，最后终于知道怎么处理URL带中文无法通过ascii 编码的情况了。

通过了解urllib.parse.quote()，发现它完全可以直接处理中英混排的URL。

import urllib.parse

url = 'http://www.example.com/api.php?text=中文'

# 不带附加参数 print('\n不带附加参数：\n%s' % quote(url))

# 附带不转换字符参数 print('\n附加不转换字符参数：\n%s' % quote(url, safe='/:?='))

运行结果：

不带附加参数：

http%3A//www.example.com/api.php%3Ftext%3D%E4%B8%AD%E6%96%87%E5%9C%A8%E8%BF%99%E9%87%8C

附加不转换字符参数：

http://www.example.com/api.php?text=%E4%B8%AD%E6%96%87%E5%9C%A8%E8%BF%99%E9%87%8C

附：
quote可用的参数如下：

quote(string, safe='/', encoding=None, errors=None)

其中的safe参数可用的范围：

reserved = ";" | "/" | "?" | ":" | "@" | "&" | "=" | "+" | "$" | ","

通过设置合适的参数即可对爬取来的混合中文的URL进行直接处理了。

posted @ 2017-08-04 18:19 李·狗嗨阅读(414) 评论(0) 收藏举报

刷新页面返回顶部

李·狗嗨