【技术累积】【点】【Java】【12】几种常见编码（持续更新）

问题描述

有这么一段代码：

String question = new String(record.getQuestion().getBytes("iso-8859-1"), "UTF-8");

所以是什么意思呢？

问题解答

可以拆分为两句来看

byte[] bytes = record.getQuestion().getBytes("iso-8859-1");
String question = new String(bytes,"UTF-8");

就是先获取“iso-8859-1”编码格式下的bytes，然后转化为“UTF-8”编码下的String。

关于getBytes

import java.io.*;
 
public class Test {
    public static void main(String args[]) {
        String Str1 = new String("runoob");
 
        try{
            byte[] Str2 = Str1.getBytes();
            System.out.println("返回值：" + Str2 );
            
            Str2 = Str1.getBytes( "UTF-8" );
            System.out.println("返回值：" + Str2 );
            
            Str2 = Str1.getBytes( "ISO-8859-1" );
            System.out.println("返回值：" + Str2 );
        } catch ( UnsupportedEncodingException e){
            System.out.println("不支持的字符集");
        }
    }
}

//返回值：[B@7852e922
//返回值：[B@4e25154f
//返回值：[B@70dea4e

说说常见的几种编码

ISO8859-1

比较老的一种编码了：

单字节，定长；
向下兼容ASCII码；
无法表示中文；
能保存各种语言，若要展示为中文，可转译为当前正常显示的码值；

由于是单字节编码，和计算机最基础的表示单位一致，所以很多时候，仍旧使用iso8859-1编码来表示。而且在很多协议上，默认使用该编码。比如，虽然"中文"两个字不存在iso8859-1编码，以gb2312编码为例，应该是"d6d0 cec4"两个字符，使用iso8859-1编码的时候则将它拆开为4个字节来表示："d6 d0 ce c4"（事实上，在进行存储的时候，也是以字节为单位处理的）。而如果是UTF编码，则是6个字节"e4 b8 ad e6 96 87"。很明显，这种表示方法还需要以另一种编码为基础。

GB2312/GBK

展示汉字专用；
前者只能展示简体；
双字节定长编码；
英文字母和ISO8859-1一致（对ISO8859-1兼容）

unicode

双字节定长编码；
不兼容ISO8859-1；
可以表示所有语言；
java默认编码；

utf

是Unicode Transformation Format的缩写，意为Unicode转换格式；
多种编码，utf-8,utf-16,utf-32；数字不一样，表示最小表示的长度不同；
举例utf-8，用1-6个字节（8）表示所有字符；
utf-32是定长编码，4字节，只用到3字节，多的是为了拓展；其他是非定长编码；
utf-8表示英文等拉丁文系最有效率，中文网站之所以有很多还是用的utf-8，是代码都是英文这些。。。

一般来讲，英文字母都是用一个字节表示，而汉字使用三个字节

参考文章

posted @ 2018-09-26 11:01 韧还阅读(334) 评论(0) 收藏举报

刷新页面返回顶部

Xiao梁的学习笔记

【技术累积】【点】【Java】【12】几种常见编码（持续更新）

问题描述

问题解答

说说常见的几种编码

ISO8859-1

GB2312/GBK

unicode

utf

参考文章

公告