JSP中文编码问题
前言:新手在做JSP开发的时候,常常会遇到的就是中文乱码的问题,而说到“Encoding”,JSP中又有若干处涉及到这个概念——pageEncoding, contentType, request.setCharacterEncoding, response.setCharacterEncoding,这几个东西的区别到底在哪里?出现了encoding的问题,我们应该如何下手去解决?
下面我们以IE浏览器为例,进行一些讲解和说明
从JSP页面请求的生命周期来看,一般的都需要经历下面几个阶段:
1。应用服务器根据JSP页面生成一个Java文件
2。应用服务器调用javac将Java文件编译成一个Servlet对应的class文件
3。用户的浏览器请求JSP对应的Servlet,Web容器起一个线程执行Servlet,将数据返回给客户端浏览器。
4。用户的浏览器根据返回的数据,将结果显示给用户。
============================================================================
關於 contentType 和 pageEncoding 的差異 和 中文JSP頁的設定技巧:
contentType -- 指定的是JSP頁最終 Browser(客戶端)所見到的網頁內容的編碼.
就是 Mozilla的 Character encoding, 或者是 IE6的 encoding. 例如 JSPtw Forum 用的contentType就是 Big5.
pageEncoding -- 指定JSP編寫時所用的編碼
如果你的是 WIN98, 或 ME 的NOTEPAD記事本編寫JSP, 就一定是常用的是Big5 或 gb2312, 如果是用 WIN2k winXP的NOTEPAD時, SAVE時就可以選擇不同的編,碼, 包括 ANSI(BIG5/GB2312)或 UTF-8 或 UNIONCODE(估是 UCS 16).
因為 JSP要經過 兩次的"編碼", 第一階段會用 pageEncoding, 第二階段會用 utf-8 至utf-8, 第三階段就是由TOMCAT出來的網頁, 用的是contentType.
階段一是 JSPC的 JSP至JAVA(.java)原碼的"翻譯", 它會跟據 pageEncoding 的設定讀取JSP. 結果是 由指定的 pageEncoding(utf-8,Big5,gb2312)的JSP 翻譯成統一的utf-8 JAVA原碼(.java). 如果pageEncoding設定錯了, 或沒設定(預設 ISO8859-1), 出來的 在這個階段 就已是中文亂碼.
階段二是由 JAVAC的JAVA原碼至JAVA BYTECODE的編譯. 不論JSP的編寫時是用(utf-8,Big5,gb2312),經過階段一的結果全都是utf-8的ENCODING的JAVA原碼.
JAVAC用 utf-8的ENCODING讀取AVA原碼, 編譯成字串是 utf-8 ENCODING的二進制碼(.class). 這是 JAVA VIRTUAL MACNHINE 對常數字串在 二進制碼(JAVA BYTECODE)內表逹的規範.
階段三是TOMCAT(或其的application container)載入和執行 階段二得來的JAVA二進制碼, 輸出的結果( 也就是BROWSER(客戶端)) 見到的. 這時一早隱藏在階段一和二的參數contentType, 就發揮了功效. (見 階段一的)
1
|
response.setContentType("text/html; charset=utf-8");
|
出來的可以是 utf-8, Big5, gb2312, 看的就是JSPcontentType的設定.
1
|
<%@ page session="false" pageEncoding="big5" contentType="text/html; charset=utf-8" %> |
還有, pageEncoding 和contentType的預設都是 ISO8859-1. 而隨便設定了其中一個, 另一個就跟著一樣了(TOMCAT4.1.27是如此). 但這不是絕對, 看的各自JSPC的處理方式. 而pageEncoding不等於contentType, 更有利亞洲區的文字 CJKV系JSP網頁的開發和展示, (例pageEncoding=Big5 不等於 contentType=utf-8).