【转】中文乱码恢复

转载自：中文乱码恢复

中文乱码是开发中常见的问题，一般情况下出现中文乱码是因为对中文字符的编码方式和解密方式不一致导致的，这种情况下，只要设置统一的字符编码方式就可以解决或者避免出现乱码问题。但在项目开发中，偶尔会出现不管怎么设置编码方式，都不能正确恢复乱码的问题。上次正好遇到了这样一个中文乱码问题，在解决问题的过程中，了解了字符编码的历史，常见编码字符集的由来，对解决中文乱码问题起到了很大的帮助（对字符编码以及各种常见字符集的分析总结，会在后面的博客中发出来）。

　　对于切换编码方式无法解决的中文乱码问题，常见的原因是：一段使用A编码方式的中文，在传输、存储的过程中被错误的使用B编码方式编码，再次展示的时候使用A编码方式解码，最终出现了很奇怪的乱码问题。

　　例如：你好这个中文单词，最开始使用 UTF-8 编码，那么其16进制编码为：E4BDA0 E5A5BD，然而在解码的时候，错误的使用了 GB18030 编码方式，也就是说，这个时候解码程序以GB18030字符集解码 E4BD A0E5 A5BD 这段16进制，得到的结果是：浣犲ソ。很明显，这个时候乱码了。这时，在传输、存储这段乱码文本的时候，使用了 UTF-8 编码方式来进行编码，也就是对浣犲ソ这段文本进行编码，得到16进制编码为：E6B5A3E78AB2E382BD20 ，然后数据库或文件里存储的内容就变成了 E6B5A3E78AB2E382BD20。

　　对于 E6B5A3E78AB2E382BD20 这段16进制代码，如果使用 UTF-8 编码方式来解码的话，得到的是：浣犲ソ，乱码了。而如果使用 GB18030字符集来解码的话，得到的是：娴ｇ姴銈?? 这样的乱码。不管使用其他的各种编码字符集进行解码，得到的结果都是一样——各种各样的乱码。

　　从乱码的过程可以看出，关键的一步在于第一次解码的时候，也就是使用 GB18030字符集解码的时候，乱码了，后面就是按照乱码文本进行存储，就算是用存储时的字符集解码，得到的依然是乱码文本。

　　这个时候怎么办呢？瞎猜。

　　尝试各种常见的字符集，先推测最开始用什么字符集编码的，后来又用的什么字符集解码的，对各种可能都尝试一遍，看哪种组合的结果能推导出正确的中文文本，就可以知道如果恢复了。

　　自己写了一个恢复中文乱码的程序，成功的恢复了乱码的中文文本，并在后续的乱码问题修复中多次使用，贴出来供大家参考一下。

 1 package com.zy.test.encode;
 2  
 3 import java.io.UnsupportedEncodingException;
 4  
 5 public class EncodeTest {
 6  
 7     private static String[] charsetArr = {"UTF-8","GB18030","GB2312","GBK","Windows-1252","ISO8859-1"};
 8  
 9     public static void testAllCharset(String text) throws UnsupportedEncodingException {
10         if (text == null || text.length() == 0) {
11             System.out.println("文本不能为空");
12             return;
13         }
14  
15         System.out.println("假设当前编码       假设原始编码          编码后的内容");
16         printSeparator();
17  
18         for (String curCharset : charsetArr) {
19             byte[] btArr = text.getBytes(curCharset);
20             for (String originCharset : charsetArr) {
21                 if (originCharset.equals(curCharset)) {
22                     continue;
23                 }
24                 String encodeText = new String(btArr,originCharset);
25                 printTable(curCharset, originCharset, encodeText);
26             }
27             printSeparator();
28         }
29     }
30  
31     private static void printSeparator() {
32         System.out.println("--------------------------------------------------------");
33     }
34  
35     private static void printTable(String curCharset, String originCharset, String encodeText) {
36         System.out.print(curCharset);
37         for (int i = 0; i < 15 - curCharset.length(); i++) {
38             System.out.print(" ");
39         }
40         System.out.print("|   " + originCharset);
41         for (int i = 0; i < 16 - originCharset.length(); i++) {
42             System.out.print(" ");
43         }
44         System.out.println("|     " + encodeText);
45     }
46  
47     public static void main(String[] args) throws UnsupportedEncodingException {
48         //测试乱码
49         testAllCharset("浣犲ソ");
50     }
51 }

　　执行结果如下：

　　从执行结果可以看出，只有在假设当前编码为 ISO9959-1 ，假设原始编码为 UTF-8 时，正确的恢复了乱码的中文文本。由此可以得出，该乱码最开始使用 UTF-8 编码，之后错误的使用了 ISO8859-1 字符集进行解码，并按照错误解码得到的二进制进行存储、传输（实际上大多数的中文乱码场景都是这样）。

　　需要注意的是，这个乱码恢复代码仅适用于被错误解码一次的情况，如果有多次被错误解码，那么恢复起来就需要尝试更多可能的字符集组合。另外，如果乱码后的文本中出现 ?? 这样的情况，则有可能无法恢复，因为乱码之前的信息已经丢失了，例如使用UTF-8编码，然后使用GB18030解码，因为UTF-8的编码范围远大于GB18030的编码范围，所以解码的时候，一些在GB18030字符集中找不到的编码就会丢失掉了。

　　另外，推荐一个乱码恢复的网站，http://www.mytju.com/classcode/tools/messycoderecover.asp 可以对乱码进行一定的恢复，原理跟我上面说的一样（实际使用中发现有时乱码无法恢复，但是使用上面的程序就可以）。

　　正确的恢复了乱码的中文，找到了最开始的编码方式和错误解码时的编码方式，那该如何在程序中解决这个问题呢？

　　一般情况下，在错误解码的地方设置使用正确的编码字符集就可以解决问题。所以避免中文乱码的原则就是使用统一的字符集，所有的地方都统一使用某个字符集。

　　如果没法设置字符集，或者设置了正确的字符集但没有生效而又找不到解决方案的情况下，可以手动的对乱码文本进行转码（不推荐这种方式）。

　　例如，在上面测试的程序中，最原始的编码是UTF-8，错误解码使用的是ISO8859-1，那么可以用下面的方式进行转码恢复：

String newStr = new String(luanma.getBytes("ISO8859-1"),"UTF-8");

　　以上就是对处理这次中文乱码问题的一个小总结，希望能对别人有所帮助！

posted @ 2020-04-25 11:35 allaqppq 阅读(2523) 评论(0) 收藏举报

刷新页面返回顶部

【转】中文乱码恢复

公告