java中文GBK和UTF-8编码转换乱码的分析
原文:http://blog.csdn.net/54powerman/article/details/77575656
作者:54powerman
一直以为,java中任意unicode字符串,可以使用任意字符集转为byte[]再转回来,只要不抛出异常就不会丢失数据,事实证明这是错的。
经过这个实例,也明白了为什么 getBytes()需要捕获异常,虽然有时候它也没有捕获到异常。
言归正传,先看一个实例。
用ISO-8859-1中转UTF-8数据
设想一个场景:
用户A,有一个UTF-8编码的字节流,通过一个接口传递给用户B;
用户B并不知道是什么字符集,他用ISO-8859-1来接收,保存;
在一定的处理流程处理后,把这个字节流交给用户C或者交还给用户A,他们都知道这是UTF-8,他们解码得到的数据,不会丢失。
下面代码验证:
1 public static void main(String[] args) throws Exception { 2 //这是一个unicode字符串,与字符集无关 3 String str1 = "用户"; 4 5 System.out.println("unicode字符串:"+str1); 6 7 //将str转为UTF-8字节流 8 byte[] byteArray1=str1.getBytes("UTF-8");//这个很安全,UTF-8不会造成数据丢失 9 10 System.out.println(byteArray1.length);//打印6,没毛病 11 12 //下面交给另外一个人,他不知道这是UTF-8字节流,因此他当做ISO-8859-1处理 13 14 //将byteArray1当做一个普通的字节流,按照ISO-8859-1解码为一个unicode字符串 15 String str2=new String(byteArray1,"ISO-8859-1"); 16 17 System.out.println("转成ISO-8859-1会乱码:"+str2); 18 19 //将ISO-8859-1编码的unicode字符串转回为byte[] 20 byte[] byteArray2=str2.getBytes("ISO-8859-1");//不会丢失数据 21 22 //将字节流重新交回给用户A 23 24 //重新用UTF-8解码 25 String str3=new String(byteArray2,"UTF-8"); 26 27 System.out.println("数据没有丢失:"+str3); 28 } 29 输出: 30 31 unicode字符串:用户 32 6 33 转成ISO-8859-1会乱码:用户 34 数据没有丢失:用户
用GBK中转UTF-8数据
重复前面的流程,将ISO-8859-1 用GBK替换。
只把中间一段改掉:
1 //将byteArray1当做一个普通的字节流,按照GBK解码为一个unicode字符串 2 String str2=new String(byteArray1,"GBK"); 3 4 System.out.println("转成GBK会乱码:"+str2); 5 6 //将GBK编码的unicode字符串转回为byte[] 7 byte[] byteArray2=str2.getBytes("GBK");//数据会不会丢失呢? 8 运行结果: 9 10 unicode字符串:用户 11 6 12 转成GBK会乱码:鐢ㄦ埛 13 数据没有丢失:用户
好像没有问题,这就是一个误区。
修改原文字符串重新测试
将两个汉字 “用户” 修改为三个汉字 “用户名” 重新测试。
ISO-8859-1测试结果:
1 unicode字符串:用户名 2 9 3 转成GBK会乱码:用户å 4 数据没有丢失:用户名 5 GBK 测试结果: 6 7 unicode字符串:用户名 8 9 9 转成GBK会乱码:鐢ㄦ埛鍚� 10 数据没有丢失:用户�?
结论出来了
ISO-8859-1 可以作为中间编码,不会导致数据丢失;
GBK 如果汉字数量为偶数,不会丢失数据,如果汉字数量为奇数,必定会丢失数据。
why?
为什么奇数个汉字GBK会出错
直接对比两种字符集和奇偶字数的情形
重新封装一下前面的逻辑,写一段代码来分析:
1 public static void demo(String str) throws Exception { 2 System.out.println("原文:" + str); 3 4 byte[] utfByte = str.getBytes("UTF-8"); 5 System.out.print("utf Byte:"); 6 printHex(utfByte); 7 String gbk = new String(utfByte, "GBK");//这里实际上把数据破坏了 8 System.out.println("to GBK:" + gbk); 9 10 byte[] gbkByte=gbk.getBytes("GBK"); 11 String utf = new String(gbkByte, "UTF-8"); 12 System.out.print("gbk Byte:"); 13 printHex(gbkByte); 14 System.out.println("revert UTF8:" + utf); 15 System.out.println("==="); 16 // 如果gbk变成iso-8859-1就没问题 17 } 18 19 public static void printHex(byte[] byteArray) { 20 StringBuffer sb = new StringBuffer(); 21 for (byte b : byteArray) { 22 sb.append(Integer.toHexString((b >> 4) & 0xF)); 23 sb.append(Integer.toHexString(b & 0xF)); 24 sb.append(""); 25 } 26 System.out.println(sb.toString()); 27 }; 28 29 public static void main(String[] args) throws Exception { 30 String str1 = "姓名"; 31 String str2 = "用户名"; 32 demo(str1,"UTF-8","ISO-8859-1"); 33 demo(str2,"UTF-8","ISO-8859-1"); 34 35 demo(str1,"UTF-8","GBK"); 36 demo(str2,"UTF-8","GBK"); 37 } 38 输出结果: 39 40 原文:姓名 41 UTF-8 Byte:e5 a7 93 e5 90 8d 42 to ISO-8859-1:姓å 43 ISO-8859-1 Byte:e5 a7 93 e5 90 8d 44 revert UTF-8:姓名 45 === 46 原文:用户名 47 UTF-8 Byte:e7 94 a8 e6 88 b7 e5 90 8d 48 to ISO-8859-1:用户å 49 ISO-8859-1 Byte:e7 94 a8 e6 88 b7 e5 90 8d 50 revert UTF-8:用户名 51 === 52 原文:姓名 53 UTF-8 Byte:e5 a7 93 e5 90 8d 54 to GBK:濮撳悕 55 GBK Byte:e5 a7 93 e5 90 8d 56 revert UTF-8:姓名 57 === 58 原文:用户名 59 UTF-8 Byte:e7 94 a8 e6 88 b7 e5 90 8d 60 to GBK:鐢ㄦ埛鍚� 61 GBK Byte:e7 94 a8 e6 88 b7 e5 90 3f 62 revert UTF-8:用户�? 63 ===
为什么GBK会出错
前三段都没问题,最后一段,奇数个汉字的utf-8字节流转成GBK字符串,再转回来,前面一切正常,最后一个字节,变成了 “0x3f”,即”?”
我们使用”用户名” 三个字来分析,它的UTF-8 的字节流为:
[e7 94 a8] [e6 88 b7] [e5 90 8d]
我们按照三个字节一组分组,他被用户A当做一个整体交给用户B。
用户B由于不知道是什么字符集,他当做GBK处理,因为GBK是双字节编码,如下按照两两一组进行分组:
[e7 94] [a8 e6] [88 b7] [e5 90] [8d ?]
不够了,怎么办?它把 0x8d当做一个未知字符,用一个半角Ascii字符的 “?” 代替,变成了:
[e7 94] [a8 e6] [88 b7] [e5 90] 3f
数据被破坏了。
为什么 ISO-8859-1 没问题
因为 ISO-8859-1 是单字节编码,因此它的分组方案是:
[e7] [94] [a8] [e6] [88] [b7] [e5] [90] [8d]
因此中间不做任何操作,交回个用户A的时候,数据没有变化。
关于Unicode编码
因为UTF-16 区分大小端,严格讲:unicode==UTF16BE。
1 public static void main(String[] args) throws Exception { 2 String str="测试"; 3 printHex(str.getBytes("UNICODE")); 4 printHex(str.getBytes("UTF-16LE")); 5 printHex(str.getBytes("UTF-16BE")); 6 } 7 运行结果: 8 9 fe ff 6d 4b 8b d5 10 4b 6d d5 8b 11 6d 4b 8b d5
其中 “fe ff” 为大端消息头,同理,小端消息头为 “ff fe”。
小结
作为中间转存方案,ISO-8859-1 是安全的。
UTF-8 字节流,用GBK字符集中转是不安全的;反过来也是同样的道理。
1 byte[] utfByte = str.getBytes("UTF-8"); 2 String gbk = new String(utfByte, "GBK"); 3 这是错误的用法,虽然在ISO-8859-1时并没报错。 4 5 首先,byte[] utfByte = str.getBytes("UTF-8"); 6 执行完成之后,utfByte 已经很明确,这是utf-8格式的字节流; 7 8 然后,gbk = new String(utfByte, "GBK"), 9 对utf-8的字节流使用gbk解码,这是不合规矩的。 10 11 就好比一个美国人说一段英语,让一个不懂英文又不会学舌的日本人听,然后传递消息给另一个美国人。 12 13 为什么ISO-8859-1 没问题呢? 14 15 因为它只认识一个一个的字节,就相当于是一个录音机。我管你说的什么鬼话连篇,过去直接播放就可以了。 16 getBytes() 是会丢失数据的操作,而且不一定会抛异常。 17 18 unicode是安全的,因为他是java使用的标准类型,跨平台无差异。
学问:纸上得来终觉浅,绝知此事要躬行
为事:工欲善其事,必先利其器。
态度:道阻且长,行则将至;行而不辍,未来可期
.....................................................................
------- 桃之夭夭,灼灼其华。之子于归,宜其室家。 ---------------
------- 桃之夭夭,有蕡其实。之子于归,宜其家室。 ---------------
------- 桃之夭夭,其叶蓁蓁。之子于归,宜其家人。 ---------------
=====================================================================
* 博客文章部分截图及内容来自于学习的书本及相应培训课程以及网络其他博客,仅做学习讨论之用,不做商业用途。
* 如有侵权,马上联系我,我立马删除对应链接。 * @author Alan -liu * @Email no008@foxmail.com
转载请标注出处! ✧*꧁一品堂.技术学习笔记꧂*✧. ---> https://www.cnblogs.com/ios9/