ASCII和UTF-8

造冰箱的熊猫@cnblogs 2018/12/11

 

用了这么久的UTF-8,第一次了解了点UTF-8的细节

 

UTF-8[1]属于变长度编码。一个UTF-8字符的编码长度为1~4个字节。

1)长度为1个字节的UTF-8字符:取值为b0xxx'xxxx,等于相同取值的ASCII字符,共计128个。对应的编码点(code point)为U+0000~U+007F。

2)长度为2个字节的UTF-8字符:取值为b110x'xxxx,b10xx'xxxx。对应的编码点为U+0080~U+07FF,共计1920个。

3)长度为3个字节的UTF-8字符:取值为b1110'xxxx,b10xx'xxxx,b10xx'xxxx。对应的编码点为U+0800~U+FFFF。RFC3629[2]规定,U+D800~U+DFFF为无效编码点,因此共计61440个。

4)长度为4个字节的UTF-8字符:取值为b1111'0xxx,b10xx'xxxx,b10xx'xxxx,b10xx'xxxx。对应的编码点为U+10000~U+10FFFF,共计1’048‘576个。

合计UTF-8编码的字符为1’112‘064个。

 

ASCII(American Standard Code for Information Interchange)属于单字节编码,取值范围为0x00~0x7F/b0xxx'xxxx。取值范围为b1xxx'xxxx为扩展ASCII。

 

参考

[1] 维基百科:UTF-8

[2] RFC3629:UTF-8, a transformation format of ISO 10646

posted @ 2018-12-11 08:29  造冰箱的大熊猫  阅读(271)  评论(0编辑  收藏  举报