java中文GBK和UTF-8编码转换乱码的分析

原文:http://blog.csdn.net/54powerman/article/details/77575656

作者:54powerman

一直以为，java中任意unicode字符串，可以使用任意字符集转为byte[]再转回来，只要不抛出异常就不会丢失数据，事实证明这是错的。

经过这个实例，也明白了为什么 getBytes()需要捕获异常，虽然有时候它也没有捕获到异常。

言归正传，先看一个实例。

用ISO-8859-1中转UTF-8数据

设想一个场景：

用户A，有一个UTF-8编码的字节流，通过一个接口传递给用户B；

用户B并不知道是什么字符集，他用ISO-8859-1来接收，保存；

在一定的处理流程处理后，把这个字节流交给用户C或者交还给用户A，他们都知道这是UTF-8，他们解码得到的数据，不会丢失。

下面代码验证：

  1 public static void main(String[] args) throws Exception {
  2  	  //这是一个unicode字符串，与字符集无关
  3  	  String str1 = "用户";
  4 
  5  	  System.out.println("unicode字符串："+str1);
  6 
  7  	  //将str转为UTF-8字节流
  8  	  byte[] byteArray1=str1.getBytes("UTF-8");//这个很安全，UTF-8不会造成数据丢失
  9 
 10  	  System.out.println(byteArray1.length);//打印6，没毛病
 11 
 12  	  //下面交给另外一个人，他不知道这是UTF-8字节流，因此他当做ISO-8859-1处理
 13 
 14  	  //将byteArray1当做一个普通的字节流，按照ISO-8859-1解码为一个unicode字符串
 15  	  String str2=new String(byteArray1,"ISO-8859-1");
 16 
 17  	  System.out.println("转成ISO-8859-1会乱码："+str2);
 18 
 19  	  //将ISO-8859-1编码的unicode字符串转回为byte[]
 20  	  byte[] byteArray2=str2.getBytes("ISO-8859-1");//不会丢失数据
 21 
 22  	  //将字节流重新交回给用户A
 23 
 24  	  //重新用UTF-8解码
 25  	  String str3=new String(byteArray2,"UTF-8");
 26 
 27  	  System.out.println("数据没有丢失："+str3);
 28  	}
 29 输出：
 30 
 31  	unicode字符串：用户
 32  	6
 33  	转成ISO-8859-1会乱码：ç”¨æˆ·
 34  	数据没有丢失：用户

用GBK中转UTF-8数据

重复前面的流程，将ISO-8859-1 用GBK替换。

只把中间一段改掉：

  1 //将byteArray1当做一个普通的字节流，按照GBK解码为一个unicode字符串
  2  	    String str2=new String(byteArray1,"GBK");
  3 
  4  	    System.out.println("转成GBK会乱码："+str2);
  5 
  6  	    //将GBK编码的unicode字符串转回为byte[]
  7  	    byte[] byteArray2=str2.getBytes("GBK");//数据会不会丢失呢？
  8 运行结果：
  9 
 10  	unicode字符串：用户
 11  	6
 12  	转成GBK会乱码：鐢ㄦ埛
 13  	数据没有丢失：用户

好像没有问题，这就是一个误区。

修改原文字符串重新测试

将两个汉字 “用户” 修改为三个汉字 “用户名” 重新测试。

ISO-8859-1测试结果：

  1 unicode字符串：用户名
  2  	9
  3  	转成GBK会乱码：ç”¨æˆ·å
  4  	数据没有丢失：用户名
  5 GBK 测试结果：
  6 
  7  	unicode字符串：用户名
  8  	9
  9  	转成GBK会乱码：鐢ㄦ埛鍚�
 10  	数据没有丢失：用户�?

结论出来了

ISO-8859-1 可以作为中间编码，不会导致数据丢失；

GBK 如果汉字数量为偶数，不会丢失数据，如果汉字数量为奇数，必定会丢失数据。

why？

为什么奇数个汉字GBK会出错

直接对比两种字符集和奇偶字数的情形

重新封装一下前面的逻辑，写一段代码来分析：

  1 public static void demo(String str) throws Exception {
  2  	  System.out.println("原文：" + str);
  3 
  4  	  byte[] utfByte = str.getBytes("UTF-8");
  5  	  System.out.print("utf Byte：");
  6  	  printHex(utfByte);
  7  	  String gbk = new String(utfByte, "GBK");//这里实际上把数据破坏了
  8  	  System.out.println("to GBK：" + gbk);
  9 
 10  	  byte[] gbkByte=gbk.getBytes("GBK");
 11  	  String utf = new String(gbkByte, "UTF-8");
 12  	  System.out.print("gbk Byte：");
 13  	  printHex(gbkByte);
 14  	  System.out.println("revert UTF8：" + utf);
 15  	  System.out.println("===");
 16  	//      如果gbk变成iso-8859-1就没问题
 17  	}
 18 
 19  	public static void printHex(byte[] byteArray) {
 20  	  StringBuffer sb = new StringBuffer();
 21  	  for (byte b : byteArray) {
 22  	    sb.append(Integer.toHexString((b >> 4) & 0xF));
 23  	    sb.append(Integer.toHexString(b & 0xF));
 24  	    sb.append("");
 25  	  }
 26  	  System.out.println(sb.toString());
 27  	};
 28 
 29  	public static void main(String[] args) throws Exception {
 30  	  String str1 = "姓名";
 31  	  String str2 = "用户名";
 32  	  demo(str1,"UTF-8","ISO-8859-1");
 33  	  demo(str2,"UTF-8","ISO-8859-1");
 34 
 35  	  demo(str1,"UTF-8","GBK");
 36  	  demo(str2,"UTF-8","GBK");
 37  	}
 38 输出结果：
 39 
 40  	原文：姓名
 41  	UTF-8 Byte：e5 a7 93 e5 90 8d
 42  	to ISO-8859-1:å§“å
 43  	ISO-8859-1 Byte：e5 a7 93 e5 90 8d
 44  	revert UTF-8：姓名
 45  	===
 46  	原文：用户名
 47  	UTF-8 Byte：e7 94 a8 e6 88 b7 e5 90 8d
 48  	to ISO-8859-1:ç”¨æˆ·å
 49  	ISO-8859-1 Byte：e7 94 a8 e6 88 b7 e5 90 8d
 50  	revert UTF-8：用户名
 51  	===
 52  	原文：姓名
 53  	UTF-8 Byte：e5 a7 93 e5 90 8d
 54  	to GBK:濮撳悕
 55  	GBK Byte：e5 a7 93 e5 90 8d
 56  	revert UTF-8：姓名
 57  	===
 58  	原文：用户名
 59  	UTF-8 Byte：e7 94 a8 e6 88 b7 e5 90 8d
 60  	to GBK:鐢ㄦ埛鍚�
 61  	GBK Byte：e7 94 a8 e6 88 b7 e5 90 3f
 62  	revert UTF-8：用户�?
 63  	===

为什么GBK会出错

前三段都没问题，最后一段，奇数个汉字的utf-8字节流转成GBK字符串，再转回来，前面一切正常，最后一个字节，变成了 “0x3f”，即”?”

我们使用”用户名” 三个字来分析，它的UTF-8 的字节流为：

[e7 94 a8] [e6 88 b7] [e5 90 8d]

我们按照三个字节一组分组，他被用户A当做一个整体交给用户B。

用户B由于不知道是什么字符集，他当做GBK处理，因为GBK是双字节编码，如下按照两两一组进行分组：

[e7 94] [a8 e6] [88 b7] [e5 90] [8d ？]

不够了，怎么办？它把 0x8d当做一个未知字符，用一个半角Ascii字符的 “？” 代替，变成了：

[e7 94] [a8 e6] [88 b7] [e5 90] 3f

数据被破坏了。

为什么 ISO-8859-1 没问题

因为 ISO-8859-1 是单字节编码，因此它的分组方案是：

[e7] [94] [a8] [e6] [88] [b7] [e5] [90] [8d]

因此中间不做任何操作，交回个用户A的时候，数据没有变化。

关于Unicode编码

因为UTF-16 区分大小端，严格讲：unicode==UTF16BE。

  1 public static void main(String[] args) throws Exception {
  2  	  String str="测试";
  3  	  printHex(str.getBytes("UNICODE"));
  4  	  printHex(str.getBytes("UTF-16LE"));
  5  	  printHex(str.getBytes("UTF-16BE"));
  6  	}
  7 运行结果：
  8 
  9  	fe ff 6d 4b 8b d5
 10  	4b 6d d5 8b
 11  	6d 4b 8b d5

其中 “fe ff” 为大端消息头，同理，小端消息头为 “ff fe”。

小结

作为中间转存方案，ISO-8859-1 是安全的。

UTF-8 字节流，用GBK字符集中转是不安全的；反过来也是同样的道理。

  1 byte[] utfByte = str.getBytes("UTF-8");
  2  	String gbk = new String(utfByte, "GBK");
  3  	这是错误的用法，虽然在ISO-8859-1时并没报错。
  4 
  5  	首先，byte[] utfByte = str.getBytes("UTF-8");
  6  	执行完成之后，utfByte 已经很明确，这是utf-8格式的字节流；
  7 
  8  	然后，gbk = new String(utfByte, "GBK")，
  9  	对utf-8的字节流使用gbk解码，这是不合规矩的。
 10 
 11  	就好比一个美国人说一段英语，让一个不懂英文又不会学舌的日本人听，然后传递消息给另一个美国人。
 12 
 13  	为什么ISO-8859-1 没问题呢？
 14 
 15  	因为它只认识一个一个的字节，就相当于是一个录音机。我管你说的什么鬼话连篇，过去直接播放就可以了。
 16 getBytes() 是会丢失数据的操作，而且不一定会抛异常。
 17 
 18 unicode是安全的，因为他是java使用的标准类型，跨平台无差异。

posted @ 2017-09-06 09:40 一品堂.技术学习笔记阅读(5996) 评论(0) 收藏举报

刷新页面返回顶部

✧꧁一品堂.技术学习笔记꧂✧.

java中文GBK和UTF-8编码转换乱码的分析

公告

✧*꧁一品堂.技术学习笔记꧂*✧.

java中文GBK和UTF-8编码转换乱码的分析

公告

✧꧁一品堂.技术学习笔记꧂✧.