java中的字节与字符

1.在java中，一个字符等于多少字节？

或者更详细的问：在java中，一个英文字符等于多少字节？一个中文字符等于多少字节？
Java采用unicode来表示字符，java中的一个char是2个字节，一个中文或英文字符的unicode编码都占2个字节，但如果采用其他编码方式，一个字符占用的字节数则各不相同。

在 GB 2312 编码或 GBK 编码中，一个英文字母字符存储需要1个字节，一个汉子字符存储需要2个字节。
在UTF-8编码中，一个英文字母字符存储需要1个字节，一个汉字字符储存需要3到4个字节。
在UTF-16编码中，一个英文字母字符存储需要2个字节，一个汉字字符储存需要3到4个字节（Unicode扩展区的一些汉字存储需要4个字节）。
在UTF-32编码中，世界上任何字符的存储都需要4个字节。

java代码举例：

String str = "测试test";
int byte_len = str.getBytes().length;
int len = str.length();
System.out.println("字节长度为：" + byte_len);
System.out.println("字符长度为：" + len);

如果编码方式为GBK，对于字符串“测试test”，字符长度为6，字节长度为8。

如果编码方式为UTF_8，对于字符串“测试test”，字符长度为6，字节长度为10。

PS：字符串的length（）方法返回的是字符长度，一个汉子表示一个字符，一个字母也表示一个字符。

2.unicode和UTF_8有什么关系

UTF-8就是在互联网上使用最广的一种unicode的实现方式。unicode的其他实现方式还包括UTF-16和UTF-32。
UTF-8的最大特点是，它是一种可变的编码方式。

那么问题来了
说了这么多还是不明白，到底java中一个char表示几个字节？请看下面解释

    public class Test {  
      
        public static void main(String[] args) {  
            String str= "测";  
            char x ='测';  
            byte[] byteStr=null;  
            byte[] byteChar=null;  
            try {  
                byteStr = str.getBytes("utf-8");  
                byteChar = charToByte(x);  
            } catch (Exception e) {  
          
                e.printStackTrace();  
            }  
            System.out.println("byteStr ："+byteStr.length);  
            System.out.println("byteChar："+byteChar.length);  
        }  
        public static byte[] charToByte(char c) {   
            byte[] b = new byte[2];   
            b[0] = (byte) ((c & 0xFF00) >> 8);   
            b[1] = (byte) (c & 0xFF);   
            return b;   
        }  
    }

运行结果：

byteStr：3
byteChar：2

java是用unicode来表示字符，"测"这个中文字符的unicode就是2个字节。
String.getBytes(encoding)方法是获取指定编码的byte数组表示，
如果不指定encoding则取系统默认的encoding。

3.编码

字符编码表(字符集)

ASCII 码表：
保存了数字，字母等
A - 65，a - 97，0 - 48

GB2312 码表：
保存了常用的汉字（6-7千个），一个中文占两个字节，且都为负数

GBK 码表：
保存了基本所有的汉字（20000多个），不管中文还是英文都为2个字节，这两个字节可为正负

Unicode 码表：
统一码标(万国码标)
不管是中文还是英文都是两个字节

UTF-8 码表：
一个字节就可以存储的数据不用两个字节存储
这个码表更加标准化，在每一个字节头加入了编码信息

ISO-8859-1 码表：
拉丁码表
Tomcat默认编码
都是负数

在GBK中一个中文两个字节
在UTF-8中一个中文三个字节

posted @ 2021-06-29 20:47 叶落无蝉鸣阅读(1626) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部