Unicode，UTF-32,UTF-16,UTF-8到底是啥关系？

编码的目的，就是给抽象的字符赋予一个数值，好在计算机里面表示。常见的ASCII使用8bit给字符编码，但是实际只使用了7bit，最高位没有使用，因此，只能表示128个字符；ISO-8859-1(也叫Latin-1，或者直接8859)使用全8bit编码，可以看成是ASCII的超集，因为它的低128个字符编码和ASCII一样，也就是说，如果一个字符使用ASCII编码，那么转换成ISO-8859-1后，编码值不变。

但是，无论是ASCII，还是ISO-8859-1，都无法满足用来表示像中文这样的字符，所以，为了国际化的需要，诞生了Unicode编码。Unicode本质上是一套标准，而UTF-32，UTF-16，UTF-8是Unicode的三种不同实现方式。

Unicode

Unicode规定了一个数值范围，这个数值范围叫code space。Unicode的code space为0到10FFFF，这个空间里面的每一个数值，叫做一个code point，因此，Unicode总共有1114112个code point。Unicode中，在表示一个code point的时候，常常使用U+前缀，比如表示code point 201DF：U+201DF。

Unicode将code space中的code point分配给要编码的字符，有时一个字符用一个code point表示，有时一个字符会重复编码，也就是说可能不同的两个或者多个code point代表同一个字符，而有时候，可能连续多个code point表示一个字符，而这里面的每一个code point都表示一个其他的字符。code point和字符的关系如下图所示：

在上图中，A+一个小圈这个字符就有3种编码，其中U+00C5和U+212B虽然code point不同，但是代表的都是这个字符，而这个字符还可以看成是字母A和一个小圈组合而成，A的code point是U+0041，小圈的code point是U+030A，因此，用A和小圈的code point组合在一起，也可以表示这个字符。

Unicode规定了code space和code point，那计算机到底怎么表示这些code point呢？是直接使用，还是会做一些形式的转换呢？

UTF-32(UCS-4)

在计算机中，Unicode字符的code point会被表示成一个，后者多个code unit，code unit可以和code point一样，也可以不一样。UTF-32，或者说UCS-4就是Unicode最简单的实现方式。在UTF-32中，一个code unit使用32bit，4个字节，并且Unicode中的每一个code point，都有一个与它相等的code unit对应，换句话说，UTF-32对Unicode规定的code point没有做任何转换，直接拿过来用了。

UTF-16(UCS-2)

对于UTF-16，或者UCS-2来说，每一个code unit使用16bit，2个字节。对于Unicode中位于U+0000-U+FFFF的code point，UTF-16使用一个code unit表示，对于Unicode位于U+10000-U+10FFFF的code point，UTF-16使用一对code unit表示，这样成对的code unit叫做surrogate pairs。

UTF-8

对于UTF-8，使用8bit的code unit。对于Unicode中位于U+0000-U+007F的code point，UTF-8使用一个code unit表示，因此，编码方式和ASCII没有任何区别；对于U+0100-U+07FF，UTF-8使用2个code unit表示；对于U+0800-U+FFFF，UTF-8使用3个code unit表示；对于U+10000-U+10FFFF，UTF-8使用4个code unit表示。

posted @ 2018-06-09 21:04 chaoguo1234 阅读(1198) 评论(0) 收藏举报

刷新页面返回顶部

Unicode，UTF-32,UTF-16,UTF-8到底是啥关系？

公告