UTF-8编码规则【chatgpt】
根据UTF-8编码规则,UTF-8字节序列以字节的高位位数来判断字节序列的长度,从而确定一个Unicode字符的开始和结束。
UTF-8的规则如下:
- 一个字节字符(ASCII字符)的第一个字节的最高位为0,后续7位用于表示字符的值。
- 两字节字符的第一个字节的前3位为110,后续5位用于表示字符的值;第二个字节的前2位为10,后续6位用于表示字符的值。
- 三字节字符的第一个字节的前4位为1110,后续4位用于表示字符的值;后续两个字节的前2位均为10,后续6位用于表示字符的值。
- 四字节字符的第一个字节的前5位为11110,后续3位用于表示字符的值;后续三个字节的前2位均为10,后续6位用于表示字符的值。
- 五字节字符、六字节字符等超过四字节的字符不符合UTF-8规范。
根据你提供的数据,可以看出以下规律:
- 每组数据的前两个字节(0x62 0x04)表示一个字符的开始。
- 根据字节的高位位数,可以确定Unicode字符的长度。
- 字符的长度决定了后续字节的数量,根据UTF-8规则解析后续字节。
- 最后两个字节是根据3、4、5、6字节计算出来的,用于验证UTF-8编码的正确性。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
2022-06-22 TR-104(tr069协议组中的一员)
2022-06-22 ajax 异步http
2022-06-22 jquery json
2021-06-22 the old straw hat
2020-06-22 保活 std::enable_shared_from_this<Good>
2020-06-22 程序员与作家
2020-06-22 std::thread -pthread