Java 字符串与编码-之常用编码

Java 字符串与编码

1. 先说编码 在计算机的发展历程之中，出现过很多编码。其中最著名的肯定要数
^[1]编码.

ASCII 标准的ASCII的编码是一个字节，8个bit，但其实只用了128个编码值0000 0000

0111
1111,当然现在基于x86系统都支持扩展的ASCII,把剩下的128个编码也用上了.但标准的ASCII就是128个字符.
latin1 Latin1是ISO-8859-1的别名，有些环境下写作Latin-1。也是一个字节,
8个bit, 但是256个编码都用上了,前128个编码与ASCII一致.
ISO-8859-1编码是单字节编码，向下兼容ASCII，其编码范围是0x00-0xFF，0x00-0x7F之间完全和ASCII一致，0x80-0x9F之间是控制字符，0xA0-0xFF之间是文字符号。
Unicode 编码 百度百科:
Unicode（又称统一码、万国码、单一码）是计算机科学领域里的一项业界标准，包括字符集、编码方案等。Unicode是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发，1994年正式公布

Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。目前的Unicode字符分为17组编排，0x0000至0x10FFFF，每组称为平面（Plane），而每平面拥有65536个码位，共1114112个。然而目前只用了少数平面。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。
[详情可见Unicode百度百科]

Unicode 有 UCS-2 和 UCS-4 两种编码, UCS-2 是两个字节编码, 码位有 $2^{16}$个,
UCS有四个字节来编码, 可以容纳的最大码位是 $2^{16}$ * $2^{16}$. 但其实 UCS-4
每个平面是 $2^{16}$个码位, 有17个平面. 其中0平面(BMP)与 UCS-2 一样.

UTF-8 Unicode 编码的一种可变字节编码方式, 其最小的编码大小为8位, 一个字节.
因为Unicode(UCS-4)是4个字节的编码, 所以会消耗特别大的空间,
但其实最常用的编码并不多, 设想一下,大量的英文字母都是使用4个字节存储. 所以有UTF-8,
UTF-16 的编码方式, 主要是为了减少英文字母等BMP内的存储空间.

Unicode编码(十六进制)	UTF-8 字节流(二进制)
000000-00007	0xxxxxxx
000080-0007FF	110xxxxx 10xxxxxx
000800-00FFFF	1110xxxx 10xxxxxx 10xxxxxx
010000-10FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

从表格中可以看出, UTF-8 的第一个字节是一种前缀编码, 0b10
开头的字节只能确认不是编码的首字节.

UTF-16 详细的编码可以见 百度百科
Word : 两个字节的无符号整数
BMP平面是 0x0000- 0xFFFF, 可以直接用两个字节表示, D800 -DFFF
是保留下来的代理区, 详细的是

编码区域	描述
D800-DB7f	高位替代
DB80-DBFF	高位专用替代
DC00-DFFF	低位替代

如果这里我没理解错的话, UTF-16 的 0xDFFF -
0xD800个位置(十进制是2048)是比BMP少的码位.
Unicode编码0x10000-0x10FFFF的UTF-16编码需要两个Word, 减去 0x10000 ( 0xFFFF +
1 )之后刚好是0xFFFFF, 可以直接用20位来表示.

另一种算法是17个平面减去一个是16个, 16刚好是4位可以表示的, 4位加两字节16位就是20位

当需要两个word的时候, 第一个高6位110110[00] = D8 第二个高6位 110111[00] = DC
都去掉那么剩下的20位拼起来就是 Unicode码值 - 0xFFFF

ASCII ((American St**andard Code for Information Interchange):
美国信息交换标准代码）是基于拉丁字母的一套电脑编码系统，主要用于显示现代英语和其他西欧语言。它是最通用的信息交换标准，并等同于国际标准ISO/IEC
646。ASCII第一次以规范标准的类型发表是在1967年，最后一次更新则是在1986年，到目前为止共定义了128个字符 ↩︎

posted on 2020-10-31 17:49 好好学习呀) 阅读(216) 评论(0) 编辑收藏举报