求知若饥，虚心若愚

Python中文字符串截取

#-*- coding:utf8 -*-
s = u'中文截取'
s.decode('utf8')[0:3].encode('utf8')
# 结果u'中文截取

延伸阅读：

UTF-8中的汉字占用多少字节？

占2个字节的：〇

占3个字节的：基本等同于GBK，含21000多个汉字

占4个字节的：中日韩超大字符集里面的汉字，有5万多个

一个UTF-8数字占1个字节

一个UTF-8英文字母占1个字节

在查找 UTF-8 编码资料时发现，很多的帖子说的 UTF-8 编码里，一个汉字占用3个字节，有的还做了个证明，大概是这样的，创建一个没有BOM的UTF-8编码的文本文件，里面保存了几个汉字，然后查看文件的大小。我觉得这样的证明没有一点说服力，因为 UTF-8 是变长的，1-6个字节，少量的汉字检测是不能说明所有的汉字都是的。

后来我又查看了字符映射表－汉语，找到了正确的答案，少数是汉字每个占用3个字节，多数占用4个字节。

posted @ 2015-06-14 16:24 初行阅读(8246) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· Linux系列：如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识（上）

阅读排行：
· 阿里最新开源QwQ-32B，效果媲美deepseek-r1满血版，部署成本又又又降低了！
· 单线程的Redis速度为什么快？
· 展开说说关于C#中ORM框架的用法！
· SQL Server 2025 AI相关能力初探
· Pantheons：用 TypeScript 打造主流大模型对话的一站式集成库

公告

昵称：初行
园龄： 12年11个月
粉丝： 134
关注： 13

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔档案 (116)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:SQL的几种连接：内连接、左联接、右连接、全连接、交叉连接
全链接呢??
--thouger
2. Re:C#绘制数字图像灰度直方图
不错刚刚好需要显示直方图数据
--无赖痞子
3. Re:Linux下DB2数据库安装教程
我只看到dec版本的，没有看到expc的
--黎明之海
4. Re:SQL的几种连接：内连接、左联接、右连接、全连接、交叉连接
解释得很清楚
--www2333
5. Re:SQL的几种连接：内连接、左联接、右连接、全连接、交叉连接
自然连接表述的对吗有的博主说自然连接可以理解为根据相同的列名且相同的字段值和字段类型进行自动连接，不需要设置where条件。如果列名不匹配，结果为笛卡尔积。没有提到是否会删除重复列...
--倾目
6. Re:C#数字图像处理的3种方法
图片居然是河大新区。巧！
--微光-倾城
7. Re:ASP.NET伪静态详解及配置
顶一下
--☞mai梦人☜
8. Re:“SSLError: The read operation timed out” when using pip
。。。。。。。。。。。
--www点elesos点com
9. Re:SQL的几种连接：内连接、左联接、右连接、全连接、交叉连接
楼主，全连接的 select * from book as a full outer join stu as b on a.sutid = b.stuid我这里竟然报错了。跟着你的例子走的...
--公子七
10. Re:设置gem源，解决下载慢的问题
不用这么麻烦，挂梯子，提速几十倍，我用的是天路加速器，效果挺好，
--kkk12356