go中字符在底层存储形式

字符串的底层是字节（byte）数组

在UTF-8编码中，字符可以占用1到4个字节不等，具体取决于该字符的Unicode码点。以下是不同长度的UTF-8编码格式：

1个字节：对于ASCII字符（即值从0到127），它们使用1个字节表示，首位是0，其余7位用于表示字符的码点。

格式：0xxxxxxx
2个字节：用于表示额外的拉丁字母和其他语言的字符，包括一些带变音符号的字符等。这类字符的Unicode码点范围是从U+0080到U+07FF。

格式：
- 第一字节：110xxxxx
- 第二字节：10xxxxxx
3个字节：通常用于包含中文、日文、韩文等在内的大部分常用字符，其Unicode码点范围从U+0800到U+FFFF。

格式：
- 第一字节：1110xxxx
- 第二字节：10xxxxxx
- 第三字节：10xxxxxx
4个字节：用于表示非常罕见的字符、古代文字、emoji表情符号等，这些字符的Unicode码点范围是从U+10000到U+10FFFF。

格式：
- 第一字节：11110xxx
- 第二字节：10xxxxxx
- 第三字节：10xxxxxx
- 第四字节：10xxxxxx

每个多字节序列的第一个字节指示了整个字符的字节数，后续的每个字节都以10开头，这有助于解码器识别出当前字节是否属于一个多字节字符的一部分，并且帮助正确地解析字符串中的字符边界。

在Go语言中处理字符串时，如果你需要考虑字符而不是简单的字节，可以使用rune类型来遍历字符串，因为rune代表一个单一的Unicode码点。例如，使用for range循环遍历字符串时，它会自动解码UTF-8编码并返回每个字符的rune值及其对应的索引位置，这样你就可以准确地操作每一个字符，无论它是用多少个字节编码的。

posted @ 2025-03-02 20:44 仁义礼智信的阅读(2) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· go中字符类型

· go byte和rune

· Go 字符类型

· golang string 字符集与编码

· go中string的不同遍历方式

阅读排行：
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· 字符编码：从基础到乱码解决
· SpringCloud带你走进微服务的世界

公告

昵称：仁义礼智信的
园龄： 7年10个月
粉丝： 0
关注： 0

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔档案

阅读排行榜

评论排行榜

1. mysql中分组获取前三条记录的方法(1)

推荐排行榜

最新评论