重温Servlet学习笔记--编码问题
在说编码问题之前,首先先了解一下常见的字符编码:
- ISO-8859-1: 拉丁编码,不支持中文
- gbk,gb2312,gb18030:系统默认编码,是中国的国标码
- utf-8: 支持几乎所有语言的编码,一般我们同意用这个
为什么为出现乱码问题呢?我们知道web程序通常就是服务器和客户端之间的通信,服务器的默认编码是ISO,而浏览器的默认编码不太统一,一般浏览器会默认是gbk编码,这样,当传送数据的时候就会很容易出现乱码问题了.
- 响应(response)编码
服务器发送给客户端数据!响应是由response对象来完成,如果响应的数据不是字符数据,那么就无需去考虑编码问题。当然,如果响应的数据是字符数据,那么就一定要考虑编码的问题了.
- 当使用response.getWriter()来向客户端发送字符数据时,如果在之前没有设置编码,那么默认使用iso,因为iso不支持中文,一定乱码
- 使用response.getWriter()之前可以使用response.setCharaceterEncoding()来设置字符流的编码为gbk或utf-8,当然我们通常会选择utf-8。这样使用response.getWriter()发送的字符就是使用utf-8编码的。但还是会出现乱码!因为浏览器并不知道服务器发送过来的是什么编码的数据!这时浏览器会使用gbk来解码,所以乱码!
- 在使用response.getWriter()之前可以使用response.setHeader("Content-type","text/html;charset=utf-8")来设置响应头,通知浏览器服务器这边使用的是utf-8编码,而且在调用setHeader()后,还会自动执行setCharacterEncding()方法。这样浏览器会使用utf-8解码,所以就不会乱码了!
- setHeader("Content-Type", "text/html;charset=utf-8")的快捷方法是:setContentType("text/html;charset=utf-8);
response.setContentType("text/html;charset=utf-8"); response.setCharacterEncoding("utf-8");
通常我们只调用第一句即可,他会默认调用第二句.
- 请求(request)编码
客户端发送给服务器的请求参数是什么编码?
客户端首先要打开一个页面,然后在页面中提交表单或点击超链接!在请求这个页面时,服务器响应的编码是什么,那么客户端发送请求时的编码就是什么。
服务器端默认使用什么编码来解码参数?
服务器端默认使用ISO-8859-1来解码!所以这一定会出现乱码的!因为iso不支持中文!
请求编码处理分为两种:GET和POST:GET请求参数不在请求体中,而POST请求参数在请求体中,所以它们的处理方式是不同的!
GET请求编码处理:
> String username = new String(request.getParameter("iso-8859-1"), "utf-8");
> 在server.xml中配置URIEncoding=utf-8
POST请求编码处理:
> String username = new String(request.getParameter("iso-8859-1"), "utf-8");
> 在获取参数之前调用request.setCharacterEncoding("utf-8");
- URL编码
表单的类型:Content-Type: application/x-www-form-urlencoded,就是把中文转换成%后面跟随两位的16进制。
为什么要用它:在客户端和服务器之间传递中文时需要把它转换成网络适合的方式。
- 它不是字符编码!
- 它是用来在客户端与服务器之间传递参数用的一种方式!
- URL编码需要先指定一种字符编码,把字符串解码后,得到byte[],然后把小于0的字节+256,再转换成16进制。前面再添加一个%。
- POST请求默认就使用URL编码!tomcat会自动使用URL解码!
- URL编码:String username = URLEncoder.encode(username, "utf-8");
- URL解码:String username = URLDecoder.decode(username, "utf-8");