Ruby on Rails当中的URL编码
URL编码,对于我们这些不以英语为母语的开发者来说,是一个及其常见的问题。首先,大概解释一下为什么需要编码(也就是转义):
在URL当中合法的字符是非常有限的,大致有英文大小写字母,数字,:,/,-,_等。URL当中是不允许出现中文的,我们在浏览器中看到的显示为中文的URL,都是浏览器自动解码显示的,并非真实的URL。这就是编码的第一个目的,把非法字符转义,以便符合URL规范。
第二,有些字符在URL当中是合法的,但是在某些特定部分是非法的,比如:,/可以出现在http后面,但是如果作为查询字符串,就是非法的,必须转义,这是编码的第二个目的。
URL分为5个部分,协议,主机,URI,参数和锚点。要编码的就是URI和查询字符串,针对特殊字符(比如汉字)的编码规则就不提了,比较简单,就讨论下空格和加号的编码规则:
在URI部分,空格转义为%20,加号转义为%2B或不变;在查询字符串部分,空格转义为%20或加号,加号转义为%2B。也就是说,在编码的时候,我们可以选择规则;但是解码的时候,结果是唯一的。如果我们约定,不论是URI还是查询字符串,空格只转义为%20,加号只转义为%2B,那么,我们的规则就统一了。
我们应当对查询字符串单独进行编码,编码的主要手段是:
# 纯ruby手段 URI.escape(val, Regexp.new("[^#{URI::PATTERN::UNRESERVED}]")) #erb当中的helper <%=u "URL ENCODE <p>ME</p>" %> #Rack(未验证) Rack::Utils.escape('http://example.com')