Unicode和UTF-8

个人理解：

Unicode：是字符集，为每一个「字符」分配一个唯一的 ID（学名为码位 / 码点 / Code Point）

UTF-8：是对Unicode字符集的编码规则的具体实现，是一套以 8 位为一个编码单位的可变长编码。会将一个码位编码为 1 到 4 个字节：

即UTF-8具体编码规则：

1）单字节的字符，字节的第一位设为0，对于英语文本，UTF-8码只占用一个字节，和ASCII码完全相同；

2）n个字节的字符(n>1)，第一个字节的前n位设为1，第n+1位设为0，后面字节的前两位都设为10，这n个字节的其余空位填充该字符unicode码，高位用0补足。

实例：

例如「知」的码位是 30693，记作 U+77E5（30693 的十六进制为 0x77E5）utf-8编码如下：

根据上表中的编码规则，「知」字的码位 U+77E5 属于第三行的范围：

即「知」的utf-8编码为3个字节 0xE7 0x9F 0xA5

在C#中测试如下：

posted @ 2020-12-25 15:58 温故纳新阅读(172) 评论(0) 收藏举报

刷新页面返回顶部

温故纳新