JavaScript中的编码函数

JavaScript中有三个可以对字符串编码的函数,分别是: escape,encodeURI,encodeURIComponent,相应3个解码函数:unescape,decodeURI,decodeURIComponent 。

下面简单介绍一下它们的区别

1、escape()函数

定义:

escape() 函数可对字符串进行编码,这样就可以在所有的计算机上读取该字符串。

用法:

escape(string),参数 string 必需,表示要被转义或编码的字符串。

返回值:

已编码的 string 的副本。其中某些字符被替换成了十六进制的转义序列。

说明 :

该方法不会对 ASCII 字母和数字进行编码,也不会对下面这些 ASCII 标点符号进行编码: - _ . ! ~ * ' ( ) 。其他所有的字符都会被转义序列替换。

2、encodeURI()函数

定义:

encodeURI() 函数可把字符串作为 URI 进行编码。

用法:

encodeURI(URIstring),参数 URIstring 必需。是一个字符串,含有 URI 或其他要编码的文本。

返回值:

URIstring 的副本,其中的某些字符将被十六进制的转义序列进行替换。

说明:

该方法不会对 ASCII 字母和数字进行编码,也不会对这些 ASCII 标点符号进行编码: - _ . ! ~ * ' ( ) 。
该方法的目的是对 URI 进行完整的编码,因此对以下在 URI 中具有特殊含义的 ASCII 标点符号,encodeURI() 函数是不会进行转义的:;/?:@&=+$,#

3、encodeURIComponent() 函数

定义:

encodeURIComponent() 函数可把字符串作为 URI 组件进行编码。

用法:

encodeURIComponent(URIstring),参数 URIstring 必需。一个字符串,含有 URI 组件或其他要编码的文本。

返回值:

URIstring 的副本,其中的某些字符将被十六进制的转义序列进行替换。

说明: 

该方法不会对 ASCII 字母和数字进行编码,也不会对这些 ASCII 标点符号进行编码: - _ . ! ~ * ' ( ) 。
其他字符(比如 :;/?:@&=+$,# 这些用于分隔 URI 组件的标点符号),都是由一个或多个十六进制的转义序列替换的。

注意:

请注意与 encodeURI() 函数的区别之处,encodeURIComponent() 假定它的参数是 URI 的一部分(比如协议、主机名、路径或查询字符串),因此 encodeURIComponent() 函数会转义用于分隔 URI 各个部分的标点符号。而 encodeURI() 函数是把字符串作为 一个完整URI 进行编码的,不会对用于分隔 URI 各个部分的标点符号进行转义。

4、编码函数总结

通过对三个函数的分析,我们可以知道:escape()除了 ASCII 字母、数字和特定的符号外,对传进来的字符串全部进行转义编码,因此如果想对URL编码,最好不要使用此方法。而encodeURI() 用于编码整个URI,因为URI中的合法字符都不会被编码转换。encodeURIComponent方法在编码单个URIComponent(指请求参数)应当是最常用的,它可以将参数中的中文、特殊字符进行转义,而不会影响整个URL。

5、URI和URL的区别

URI,是uniform resource identifier,统一资源标识符,用来唯一的标识一个资源。

URL,是uniform resource locator,统一资源定位器,它是一种具体的URI,即URL可以用来标识一个资源,而且还指明了如何locate这个资源。

URN,是uniform resource name,统一资源命名,是通过名字来标识资源,比如mailto:java-net@java.sun.com。

也就是说,URI是以一种抽象的,高层次概念定义统一资源标识,而URL和URN则是具体的资源标识的方式。URL和URN都是一种URI。总的来说,URL是一种具体的URI,它不仅唯一标识资源,而且还提供了定位该资源的信息。URI是一种语义上的抽象概念,可以是绝对的,也可以是相对的,而URL则必须提供足够的信息来定位,所以,是绝对的,而通常说的relative URL,则是针对另一个absolute URL,本质上还是绝对的。

6、一次编码的情况

一般情况下, 前台发送参数

var paramName = encodeURIComponent(parmeValue);

服务器接收时, 直接这样

String paramValue = request.getParameter(paramName); // 容器自动解码。

我们知道 encodeURIComponent 使用的是 UTF-8 编码规则来编的,如果 request.getParameter(paramName) 时,容器也按 UTF-8 解的话,是正确的, 根本无须在客户端进行二次的编码。如果 request.getParameter(paramName) 时容器没有按 UTF-8 解的话,,结果只有一个,就是乱码!

容器按什么编码来解码,决定于 request.setCharacterEncoding(***) 或者 服务器程序配置。如果你在 jsp 程序中能够设置页面编码方式为utf-8,并且修改服务器配置,让容器在接收 GET 提交的参数时使用 UTF-8。客户端提交前就不用二次编码, 接收时也只要直接 request.getParameter(paramName) 即可。

7、两次编码的情况

如果因为项目需要,不能指定容器使用何种编码规则来解码提交的参数, 比如:需要接收来自不同页面,不同编码的参数内容时,这个时候,在客户端对参数进行二次编码,可以有效的避开“提交多字节字符”的这个棘手问题。

前端进行两次编码

var paramName = encodeURIComponent(encodeURIComponent(paramValue));

因为经过第一次编码,你的参数内容便不带有多字节字符了,成了纯粹的 AscII 字符串。(这里把第一次编码的结果叫成 [STR_ENC1] 好了。[STR_ENC1] 是不带有多字节字符的),再编一次后,提交,接收时容器自动解一次(容器自动解的这一次,不管是按 GBK 还是 UTF-8 还是 ISO-8859-1 都好,都能够正确的得到 [STR_ENC1])。然后,再在程序中实现一次解码,Java中可以这样解码

String paramValue = request.getParameter(paramName);
paramValue
= URLDecoder.decode(paramValue, "UTF-8");

这样就可以得到提交的参数的原值了。

或者也可以这样做:

例如你的服务器编码是ISO-8859-1,后台接收到后按照服务器编码进行转码,也能得到提交的参数的原值,这样做的缺点是必须知道服务器编码。

String paramValue = request.getParameter(paramName);

paramValue = new String(paramValue.getBytes("ISO-8859-1"), "UTF-8");

 

posted @ 2016-12-23 16:20  一线大码  Views(392)  Comments(0Edit  收藏  举报