UTF-8编码规则【chatgpt】

根据UTF-8编码规则,UTF-8字节序列以字节的高位位数来判断字节序列的长度,从而确定一个Unicode字符的开始和结束。

UTF-8的规则如下:

  • 一个字节字符(ASCII字符)的第一个字节的最高位为0,后续7位用于表示字符的值。
  • 两字节字符的第一个字节的前3位为110,后续5位用于表示字符的值;第二个字节的前2位为10,后续6位用于表示字符的值。
  • 三字节字符的第一个字节的前4位为1110,后续4位用于表示字符的值;后续两个字节的前2位均为10,后续6位用于表示字符的值。
  • 四字节字符的第一个字节的前5位为11110,后续3位用于表示字符的值;后续三个字节的前2位均为10,后续6位用于表示字符的值。
  • 五字节字符、六字节字符等超过四字节的字符不符合UTF-8规范。

根据你提供的数据,可以看出以下规律:

  • 每组数据的前两个字节(0x62 0x04)表示一个字符的开始。
  • 根据字节的高位位数,可以确定Unicode字符的长度。
  • 字符的长度决定了后续字节的数量,根据UTF-8规则解析后续字节。
  • 最后两个字节是根据3、4、5、6字节计算出来的,用于验证UTF-8编码的正确性。
需要注意的是,前两个字节表示一个字符的开始,后续字节的值与该字符的具体Unicode编码相关。如果要准确地解码这些字节序列,需要根据具体的Unicode编码表进行解析

posted on   lydstory  阅读(58)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
历史上的今天:
2022-06-22 TR-104(tr069协议组中的一员)
2022-06-22 ajax 异步http
2022-06-22 jquery json
2021-06-22 the old straw hat
2020-06-22 保活 std::enable_shared_from_this<Good>
2020-06-22 程序员与作家
2020-06-22 std::thread -pthread

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

点击右上角即可分享
微信分享提示