洗礼灵魂，修炼python（56）--爬虫篇—知识补充—编码之url编码

其实在最前面的某一篇博文里，是绝对提过编码的，有ASCII，有UTF-8，有GB2312等等，这些我绝对说过的。

url编码

首先，Http协议中参数的传输是"key=value"这种键值对形式的，如果要传多个参数就需要用“&”符号对键值对进行分割。如"?key1=value1&key2=value2"，这样在服务端在收到这种字符串的时候，会用“&”分割出每一个参数，然后再用“=”来分割出键和值并进行处理。

然后，url只能使用 ASCII 字符集来通过因特网进行发送，也就是说url允许的只能是英文字母、阿拉伯数字和某些标点符号，不能使用其他文字和符号。那么如果url中有汉字，就必须编码成为允许的字符后方可使用。

但是有个问题是，标准的国际组织并没有规定具体的编码方法，而是交给应用程序（浏览器）根据自己的一套编码方式进行编码，有点乱，而每个浏览器对同样的字符解码都是不太一样的。但这里只是指网站子文件的字符编码混乱，比如前面用的百度搜索，编码还是一样的：

火狐浏览器：

https://www.baidu.com/s?wd=%E8%83%A1%E6%AD%8C&rsv_spt=1&rsv_iqid=0xa88a849a000297f1&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&rqlang=cn&tn=monline_3_dg&rsv_enter=1&oq=a&inputT=1164&rsv_t=44f3deAD5ZhHUuZS8qctF8DYdHQl0Jc0fIHprlrxVQPAKhGaI7WQzU0%2BDYkOZ7iFCV9H&rsv_pq=bc5bcce5000040e2&rsv_sug3=10&rsv_sug1=9&rsv_sug7=100&bs=a

谷歌浏览器：

https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E8%83%A1%E6%AD%8C&oq=%25E8%2583%25A1%25E6%25AD%258C&rsv_pq=bc8022d200026160&rsv_t=cf02s%2BKYldDmROy0mQpW7gMikG0rFAkF5WE0KydGdjM1v4PH9wW87XYxuCA&rqlang=cn&rsv_enter=1&rsv_sug3=1&rsv_sug1=1&rsv_sug7=100&rsv_sug2=0&inputT=12&rsv_sug4=439

IE浏览器：

https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=0&rsv_idx=1&tn=baidu&wd=%E8%83%A1%E6%AD%8C&rsv_pq=b3b7634b00004749&rsv_t=fa91EE041mGXpmDfMhWtd6QSrm%2F24pXydfxJc%2BPc5W59OuaHKoicHE4Ngwo&rqlang=cn&rsv_enter=1&rsv_sug3=4

（搜索关键词我已经标注出来）

url的编码样式是使用【%】加上代表十六进制为一个字节形式的两位字符—【0-9和A-F】来（比如%EC），详细规则：

对于ASCII字符，字母a在ASCII码中对应的字节是0x97，那么Url编码之后得到的就是%97，字母abc， url编码后得到的就是%97%98%99
对于非ASCII字符，RFC文档建议使用utf-8对其进行编码得到相应的字节，然后对每个字节执行百分号编码。如前面搜索的"胡歌"使用UTF-8字符集得到的字节为0xE8 0x83 0xA1 0xE6 0xAD 0x8C，经过Url编码之后得到%E8%83%A1%E6%AD%8C

所以url编码通常也被称为百分号编码（percent-encoding）。所以你觉不觉得url编码确实混乱，一会儿又是ASCII码，一会儿又是UTF-8码？

不过平时使用时注意一下就可以，不用太在意

免责声明

本博文只是为了分享技术和共同学习为目的，并不出于商业目的和用途，也不希望用于商业用途，特此声明。如果内容中测试的贵站站长有异议，请联系我立即删除

posted @ 2017-11-03 11:37 geekbyte 阅读(353) 评论(0) 收藏举报

刷新页面返回顶部

geekbyte

洗礼灵魂，修炼python（56）--爬虫篇—知识补充—编码之url编码

url编码

免责声明

本博文只是为了分享技术和共同学习为目的，并不出于商业目的和用途，也不希望用于商业用途，特此声明。如果内容中测试的贵站站长有异议，请联系我立即删除

公告