编码过滤器 | 解决中文乱码问题

中文乱码问题的确令人头疼，接收get/post表单参数，或者从数据库取中文数据，都有可能出现乱码。

因为各个环境下使用的字符编码不同，HTML2.0 - HTML4.01、jsp默认使用ISO-8859-1，mysql数据库默认使用latin，HTML5使用UTF-8，ISO 8859和latin两种字符编码都不支持中文，具体可以参见下表

字符编码	说明
ISO/IEC 8859	欧洲字符集，支持丹麦语、荷兰语、德语、意大利语、拉丁语、挪威语、葡萄牙语、西班牙语，瑞典语等，1987 年首次发布。 ASCII 编码只包含了本的拉丁字母，没有包含欧洲很多国家所用到的一些扩展的拉丁字母，比如一些重音字母，带音标的字母等，ISO/IEC 8859 主要是在 ASCII 的础上增加了这些衍生的拉丁字母。
Shift_Jis	日语字符集，包含了全角及半角拉丁字母、平假名、片假名、符号及日语汉字，1978 年首次发布。
Big5	繁体中文字符集，1984 年发布，通行于台湾、香港等地区，收录了 13053 个中文字、408个普通字符以及 33 个控制字符。
GB2312	简体中文字符集，1980 年发布，共收录了 6763 个汉字，其中一级汉字 3755 个，二级汉字 3008 个；同时收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的 682 个字符。
GBK	中文字符集，是在 GB2312 的础上进行的扩展，1995 年发布。 GB2312 收录的汉字虽然覆盖了中国大陆 99.75% 的使用频率，满足了本的输入输出要求，但是对于人名、古汉语等方面出现的罕用字（例如**的“”就没有被 GB2312 收录），GB2312 并不能处理，所以后来又对 GBK 进行了一次扩展，形成了一种新的字符集，就是 GBK。 GBK 共收录了 21886 个汉字和图形符号，包括 GB2312 中的全部汉字、非汉字符号，以及 BIG5 中的全部繁体字，还有一些生僻字。
GB18030	中文字符集，是对 GBK 和 GB2312 的又一次扩展，2000 年发布。 GB18030 共收录 70244 个汉字，支持中国国内少数民族的文字，以及日语韩语中的汉字。
UTF-8	Unicode字符集称为统一码、万国码，世界通用。UTF 是 Unicode Transformation Format 的缩写，意思是“Unicode转换格式”，后面的数字表明至少使用多少个比特位（Bit）来存储字符。UTF-8是一种变长的编码方案，使用 1~6 个字节来存储；
UTF-16	UTF-16介于 UTF-8 和 UTF-32 之间，使用 2 个或者 4 个字节来存储，长度既固定又可变。
UTF-32	UTF-32是一种固定长度的编码方案，不管字符编号大小，始终使用 4 个字节来存储；

目前，最常用的中文编码类型是GBK和UTF-8，GBK是Windows默认的中文编码方案，而UTF-8将中文推向全世界。

针对中文乱码，解决方法就是：统一所有的字符编码为GBK/UTF-8

1.MYSQL数据库的存取乱码问题：

登录mysql设置字符集

让数据库支持中文编码的数据。其中UTF-8也可以改成gbk。

show variables like 'char%';

set character_set_database='utf-8';
set character_set_server='utf-8';
status;

2.HTML网页乱码问题：

如果使用的是html5，则不用修改，默认即为utf-8

你问我怎么知道自己用的是html5？哈哈，第1行改成简单的就行了

如果不是h5或者想用gbk，在html文件中添加修改第5行的charset为utf-8或gbk

Content-Type的charset表示服务器发送给客户端时的内容编码

<!DOCTYPE HTML>
<html>
  <head>
    <title>修改乱码</title>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
  </head>

  <body>
    <p>你好！</p>
  </body>
</html>

3.JSP网页乱码问题

jsp的本质是一个servlet，由tomcat这种servlet容器解析，所以比普通的html多了一步

添加修改第一行的pageEncoding为UTF-8/GBK，表示修改jsp的输出方式

这里注意 UTF-8一定要大写 ，小写会出现一些莫名其妙的错误，原因至今是个谜…

<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%>

<!DOCTYPE HTML>
<html>
  <head>
    <title>C学习系统</title>
    <meta http-equiv="pragma" content="no-cache">
    <meta http-equiv="cache-control" content="no-cache">
    <meta http-equiv="expires" content="0">
    <meta http-equiv="keywords" content="keyword1,keyword2,keyword3">
    <meta http-equiv="description" content="This is my page">
  </head>

  <body>
    This is my JSP page. <br>
  </body>
</html>

4.servlet请求/响应的乱码问题：

在用到servlet的地方添加以下代码

request.setCharacterEncoding("UTF-8");//设置请求编码
response.setCharacterEncoding("UTF-8");//设置响应编码

5.一劳永逸的方法——过滤器：

新建一个Java类，继承Filter，Filter位于javax.servlet包下

package filter;

import java.io.IOException;


import javax.servlet.Filter;
import javax.servlet.FilterChain;
import javax.servlet.FilterConfig;
import javax.servlet.ServletException;
import javax.servlet.ServletRequest;
import javax.servlet.ServletResponse;
import javax.servlet.annotation.WebFilter;

@WebFilter("/*")
public class EncodingFilter implements Filter {

    public void init(FilterConfig fConfig) throws ServletException {
    }

    public void doFilter(ServletRequest request, ServletResponse response, FilterChain chain)
            throws IOException, ServletException {

        //response.setContentType("text/html;charset=UTF-8");//含css别用
        request.setCharacterEncoding("UTF-8");
        response.setCharacterEncoding("UTF-8");

        chain.doFilter(request, response);
    }

    public void destroy() {
    }

}

第14行使用了Servlet3.0的注解，配置过滤器的应用范围，/* 代表所有文件

如果你用浏览器作为客户端的话，加上第23行，和标题2效果相同

用不了或不想用注解，可以使用原始xml配置方法：

在你的项目web根目录下创建web.xml文件，添加修改第15-22行

<?xml version="1.0" encoding="UTF-8"?>
<web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xmlns="http://xmlns.jcp.org/xml/ns/javaee"
    xsi:schemaLocation="http://xmlns.jcp.org/xml/ns/javaee http://xmlns.jcp.org/xml/ns/javaee/web-app_3_1.xsd"
    id="WebApp_ID" version="3.1">
    <display-name>project_name</display-name>
    <welcome-file-list>
        <welcome-file>index.html</welcome-file>
        <welcome-file>index.htm</welcome-file>
        <welcome-file>index.jsp</welcome-file>
        <welcome-file>default.html</welcome-file>
        <welcome-file>default.htm</welcome-file>
        <welcome-file>default.jsp</welcome-file>
    </welcome-file-list>
    <filter>
        <filter-name>EncodingFilter</filter-name>
        <filter-class>filter.EncodingFilter</filter-class>
    </filter>
    <filter-mapping>
        <filter-name>EncodingFilter</filter-name>
        <url-pattern>/*</url-pattern>
    </filter-mapping>
</web-app>

16和20行对应，表示你起的过滤器名字，17行表示对应的java类完整路径（酌情修改），21行表示应用范围

如果你的tomcat版本在7.0以下，在接收get请求的时候，要使用以下方法转码才能得到正确的中文内容

String value = new String(request.getParameter(param_name).getBytes("ISO-8859-1"),"UTF-8");

  request.getParameter(String param_name)：接收参数param_name的内容

  getBytes(String decode)：表示根据指定的decode编码返回某字符串在该编码下的byte数组表示

  String(bytes[] bt,String encode)：重新以encode格式编码，返回字符串

6.getParameter和getAttribute的区别：

getParameter(String param)专门用来接收表单等请求数据，返回的一定是字符串类型

getAttribute(String param)表示获取参数，返回的是Object类型，强制转换后可以恢复成各种实体类，往往和setAttribute(String param,Object obj)搭配使用

比如说：

session.setAttribute("userInfo",user);
User user=(User)session.getAttribute("userInfo");

User是一个bean实体类，第一行把它的实例化对象存入了session会话中，起名叫userInfo

第二行从session中获取到了userInfo，并强转恢复为User类型

session的作用范围是一次会话，通俗说就是你打开浏览器浏览那个网站，会话就开始；关闭或注销登录，一次会话就结束，session的内容会销毁

转载请注明博文来源，有什么问题欢迎在评论栏留言。 ——Kevin_Lu 2020-02-28

posted @ 2020-02-28 11:33 望三星阅读(1288) 评论(0) 收藏举报

刷新页面返回顶部

汲小成之乐，诚大雅之志

编码过滤器 | 解决中文乱码问题

公告