Java——Java中编码问题

在开发过程中经常会遇到一会乱码问题，不是什么大问题，但是也挺烦人的，今天来将我们开发总结的经验记录下来，希望可以给大家一些帮助。

一些概念：

字符：人们使用的记号，抽象意义上的一个符号。比如：‘1’,‘中’,‘a’

字节：计算机中存储数据的单元，一个8位的二进制数，是一个很具体的存储空间

字符集：使用哪些字符。也就是说哪些汉字，字母和符号会被收入标准中。所包含“字符”的集合就叫做“字符集”。

编码：规定每个“字符”分别用一个字节还是多个字节存储，用哪些字节来存储，这个规定就叫做“编码”

平常我们所说的“字符集”，比如：GB2312, GBK, JIS 等，除了有“字符的集合”这层含义外，同时也包含了“编码”的含义。

各种编码：

ASCII 码

　　因为计算机只认识数字，所以我们在计算机里面的一切数据都是以数字来表示，因为英文字符有限，所以规定使用的字节的最高位是 0，每一个字节都是以 0-127 之间的数字来表示。比如 A 对应 65，a 对应 97。这便是美国标准信息交换码，ASCII码

GB2312 码

　　随着计算机在全球的普及，很多国家和地区都把自己的字符引入了计算机，比如汉字。此时发现一个字节能表示的数字范围太小，不能包含所有的中文汉字。那么就规定使用两个字节来表示一个汉字。

　　规定：原有的 ASCII 字符的编码保持不变，仍然使用一个字节表示，为了区别一个中文字符与两个 ASCII 码字符相区别。中文字符的每个字节最高位规定为 1（即中文的二进制是负数），这便是 GB2312 编码

GBK

　　由于中国汉字太多，在 GB2312 的基础上增加了更多的中文字符，这种编码是 GBK

　　问题：如果只是在中国，那么大家都认识汉字，但是如果是别的国家，而该国家的码表中是没有收录汉字的。那么计算机在显示的时候就为乱码或是别的字符。

　　解决办法：为了解决各个国家因为本地化字符编码带来的影响，就把全世界所有的字符统一进行编码---Unicode 编码，此时某一个字符在全世界任何地方显示都是固定的，比如汉字哥，在任何地方都是以十六进制 54E5 来表示。Unicode 的字符编码都占有两个字节。

UTF-8

　　是一种针对 Unicode 的可变长度字符编码，又称为万国码，是 Unicode 的实现方式之一。编码中的第一个字节仍与 ASCII 兼容，这使得原来处理 ASCII 字符的软件无须或只需做少部分修改，即可继续使用。因此，它逐渐成为电子邮件、网页及其他存储或传送文字的应用中，优先采用的编码。互联网工程工作小组（IETF）要求所有互联网协议都必须支持 UTF-8 编码

字符的编码与解码

信息在计算机网络中传输是以字节的形式。那么如何变为字节？这就是编码的过程。那么计算机接收了这个编码，如何让使用者认识呢？那必须要将字节转换为人所识别的字符串形式，这就是解码的过程。

　　编码：将字符串转换为 byte 数组

　　解码：把 byte 数组转换为字符串

注意：编码格式和解码格式必须一致，否则乱码

下面这段代码的输出结果就是乱码：

String str=new String("Aa帅哥");
//编码操作
byte[] strByte=str.getBytes("GBK");
        
String str2=new String(strByte,"ISO-8859-1");
System.out.println(str2);

要想不乱码，则编码与解码格式必须一致：

String str=new String("Aa帅哥");
//编码操作
byte[] strByte=str.getBytes("GBK");

String str3=new String(strByte,"GBK");
System.out.println(str3);

posted @ 2019-12-23 15:25 五公子说阅读(435) 评论(0) 编辑收藏举报

刷新页面返回顶部

说故事的五公子

说的再多，不如脚踏实地的开始去做