编码过滤器 | 解决中文乱码问题

中文乱码问题的确令人头疼,接收get/post表单参数,或者从数据库取中文数据,都有可能出现乱码。

因为各个环境下使用的字符编码不同,HTML2.0 - HTML4.01、jsp默认使用ISO-8859-1,mysql数据库默认使用latin,HTML5使用UTF-8,ISO 8859和latin两种字符编码都不支持中文,具体可以参见下表

字符编码 说明
ISO/IEC 8859 欧洲字符集,支持丹麦语、荷兰语、德语、意大利语、拉丁语、挪威语、葡萄牙语、西班牙语,瑞典语等,1987 年首次发布。 ASCII 编码只包含了本的拉丁字母,没有包含欧洲很多国家所用到的一些扩展的拉丁字母,比如一些重音字母,带音标的字母等,ISO/IEC 8859 主要是在 ASCII 的础上增加了这些衍生的拉丁字母。
Shift_Jis 日语字符集,包含了全角及半角拉丁字母、平假名、片假名、符号及日语汉字,1978 年首次发布。
Big5 繁体中文字符集,1984 年发布,通行于台湾、香港等地区,收录了 13053 个中文字、408个普通字符以及 33 个控制字符。
GB2312 简体中文字符集,1980 年发布,共收录了 6763 个汉字,其中一级汉字 3755 个,二级汉字 3008 个;同时收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的 682 个字符。
GBK 中文字符集,是在 GB2312 的础上进行的扩展,1995 年发布。 GB2312 收录的汉字虽然覆盖了中国大陆 99.75% 的使用频率,满足了本的输入输出要求,但是对于人名、古汉语等方面出现的罕用字(例如**的“”就没有被 GB2312 收录),GB2312 并不能处理,所以后来又对 GBK 进行了一次扩展,形成了一种新的字符集,就是 GBK。 GBK 共收录了 21886 个汉字和图形符号,包括 GB2312 中的全部汉字、非汉字符号,以及 BIG5 中的全部繁体字,还有一些生僻字。
GB18030 中文字符集,是对 GBK 和 GB2312 的又一次扩展,2000 年发布。 GB18030 共收录 70244 个汉字,支持中国国内少数民族的文字,以及日语韩语中的汉字。
UTF-8 Unicode字符集 称为统一码、万国码,世界通用。UTF 是 Unicode Transformation Format 的缩写,意思是“Unicode转换格式”,后面的数字表明至少使用多少个比特位(Bit)来存储字符。UTF-8是一种变长的编码方案,使用 1~6 个字节来存储;
UTF-16 UTF-16介于 UTF-8 和 UTF-32 之间,使用 2 个或者 4 个字节来存储,长度既固定又可变。
UTF-32 UTF-32是一种固定长度的编码方案,不管字符编号大小,始终使用 4 个字节来存储;

目前,最常用的中文编码类型是GBK和UTF-8,GBK是Windows默认的中文编码方案,而UTF-8将中文推向全世界。

针对中文乱码,解决方法就是:统一所有的字符编码为GBK/UTF-8

1.MYSQL数据库的存取乱码问题:

登录mysql设置字符集

让数据库支持中文编码的数据。其中UTF-8也可以改成gbk。

show variables like 'char%';

set character_set_database='utf-8';
set character_set_server='utf-8';
status;

2.HTML网页乱码问题:

如果使用的是html5,则不用修改,默认即为utf-8

你问我怎么知道自己用的是html5?哈哈,第1行改成简单的就行了

如果不是h5或者想用gbk,在html文件中添加修改第5行的charset为utf-8或gbk

Content-Type的charset表示服务器发送给客户端时的内容编码

<!DOCTYPE HTML>
<html>
  <head>
    <title>修改乱码</title>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
  </head>

  <body>
    <p>你好!</p>
  </body>
</html>

3.JSP网页乱码问题

jsp的本质是一个servlet,由tomcat这种servlet容器解析,所以比普通的html多了一步

添加修改第一行的pageEncoding为UTF-8/GBK,表示修改jsp的输出方式

这里注意 UTF-8一定要大写 ,小写会出现一些莫名其妙的错误,原因至今是个谜…

<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%>

<!DOCTYPE HTML>
<html>
  <head>
    <title>C学习系统</title>
    <meta http-equiv="pragma" content="no-cache">
    <meta http-equiv="cache-control" content="no-cache">
    <meta http-equiv="expires" content="0">
    <meta http-equiv="keywords" content="keyword1,keyword2,keyword3">
    <meta http-equiv="description" content="This is my page">
  </head>

  <body>
    This is my JSP page. <br>
  </body>
</html>

4.servlet请求/响应的乱码问题:

在用到servlet的地方添加以下代码

request.setCharacterEncoding("UTF-8");//设置请求编码
response.setCharacterEncoding("UTF-8");//设置响应编码

5.一劳永逸的方法——过滤器:

新建一个Java类,继承Filter,Filter位于javax.servlet包下

package filter;

import java.io.IOException;


import javax.servlet.Filter;
import javax.servlet.FilterChain;
import javax.servlet.FilterConfig;
import javax.servlet.ServletException;
import javax.servlet.ServletRequest;
import javax.servlet.ServletResponse;
import javax.servlet.annotation.WebFilter;

@WebFilter("/*")
public class EncodingFilter implements Filter {

    public void init(FilterConfig fConfig) throws ServletException {
    }

    public void doFilter(ServletRequest request, ServletResponse response, FilterChain chain)
            throws IOException, ServletException {

        //response.setContentType("text/html;charset=UTF-8");//含css别用
        request.setCharacterEncoding("UTF-8");
        response.setCharacterEncoding("UTF-8");

        chain.doFilter(request, response);
    }

    public void destroy() {
    }

}

第14行使用了Servlet3.0的注解,配置过滤器的应用范围,/* 代表所有文件

如果你用浏览器作为客户端的话,加上第23行,和标题2效果相同

用不了或不想用注解,可以使用原始xml配置方法:

在你的项目web根目录下创建web.xml文件,添加修改第15-22行

<?xml version="1.0" encoding="UTF-8"?>
<web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xmlns="http://xmlns.jcp.org/xml/ns/javaee"
    xsi:schemaLocation="http://xmlns.jcp.org/xml/ns/javaee http://xmlns.jcp.org/xml/ns/javaee/web-app_3_1.xsd"
    id="WebApp_ID" version="3.1">
    <display-name>project_name</display-name>
    <welcome-file-list>
        <welcome-file>index.html</welcome-file>
        <welcome-file>index.htm</welcome-file>
        <welcome-file>index.jsp</welcome-file>
        <welcome-file>default.html</welcome-file>
        <welcome-file>default.htm</welcome-file>
        <welcome-file>default.jsp</welcome-file>
    </welcome-file-list>
    <filter>
        <filter-name>EncodingFilter</filter-name>
        <filter-class>filter.EncodingFilter</filter-class>
    </filter>
    <filter-mapping>
        <filter-name>EncodingFilter</filter-name>
        <url-pattern>/*</url-pattern>
    </filter-mapping>
</web-app>

16和20行对应,表示你起的过滤器名字,17行表示对应的java类完整路径(酌情修改),21行表示应用范围

如果你的tomcat版本在7.0以下,在接收get请求的时候,要使用以下方法转码才能得到正确的中文内容

String value = new String(request.getParameter(param_name).getBytes("ISO-8859-1"),"UTF-8");
  •   request.getParameter(String param_name):接收参数param_name的内容
    
  •   getBytes(String decode):表示根据指定的decode编码返回某字符串在该编码下的byte数组表示
    
  •   String(bytes[] bt,String encode):重新以encode格式编码,返回字符串
    

6.getParameter和getAttribute的区别:

getParameter(String param)专门用来接收表单等请求数据,返回的一定是字符串类型

getAttribute(String param)表示获取参数,返回的是Object类型,强制转换后可以恢复成各种实体类,往往和setAttribute(String param,Object obj)搭配使用

比如说:

session.setAttribute("userInfo",user);
User user=(User)session.getAttribute("userInfo");

User是一个bean实体类,第一行把它的实例化对象存入了session会话中,起名叫userInfo

第二行从session中获取到了userInfo,并强转恢复为User类型

session的作用范围是一次会话,通俗说就是你打开浏览器浏览那个网站,会话就开始;关闭或注销登录,一次会话就结束,session的内容会销毁

转载请注明博文来源,有什么问题欢迎在评论栏留言。 ——Kevin_Lu 2020-02-28

posted @ 2020-02-28 11:33  望三星  阅读(1202)  评论(0编辑  收藏  举报