Ruby on Rails当中的URL编码

URL编码,对于我们这些不以英语为母语的开发者来说,是一个及其常见的问题。首先,大概解释一下为什么需要编码(也就是转义):

在URL当中合法的字符是非常有限的,大致有英文大小写字母,数字,:,/,-,_等。URL当中是不允许出现中文的,我们在浏览器中看到的显示为中文的URL,都是浏览器自动解码显示的,并非真实的URL。这就是编码的第一个目的,把非法字符转义,以便符合URL规范。

第二,有些字符在URL当中是合法的,但是在某些特定部分是非法的,比如:,/可以出现在http后面,但是如果作为查询字符串,就是非法的,必须转义,这是编码的第二个目的。

URL分为5个部分,协议,主机,URI,参数和锚点。要编码的就是URI和查询字符串,针对特殊字符(比如汉字)的编码规则就不提了,比较简单,就讨论下空格和加号的编码规则:

在URI部分,空格转义为%20,加号转义为%2B或不变;在查询字符串部分,空格转义为%20或加号,加号转义为%2B。也就是说,在编码的时候,我们可以选择规则;但是解码的时候,结果是唯一的。如果我们约定,不论是URI还是查询字符串,空格只转义为%20,加号只转义为%2B,那么,我们的规则就统一了。

我们应当对查询字符串单独进行编码,编码的主要手段是:

# 纯ruby手段

URI.escape(val, Regexp.new("[^#{URI::PATTERN::UNRESERVED}]"))

#erb当中的helper

<%=u "URL ENCODE <p>ME</p>" %>

#Rack(未验证)
Rack::Utils.escape('http://example.com')

 

posted on 2013-07-07 20:10  唐明星  阅读(2464)  评论(0编辑  收藏  举报