字符集和编码
# 字符集和编码 # 0 1 <=> 010101110 => 二进制转换成10进制 <=> 88 # 电脑如何进行存储文字信息 # 人为的规定 10010101 <=> a # 美国的科学家制定了统一的ascii码 # ASCII码==> 编排了128个文字符号,包含(字母,回车,各种特殊符号,标点等等) # 只需要7个0和1就可以表示这128个符号.如:01101010 # (7个0和1,可以组合成不同的顺序)其中最开始的0也是加进去的=>1 # 1 byte(字节) ==> 8bit # ANSI => 美国人提供的一套标准,每个字符 16bit,2byte """ 01000000 01111111 到了中国,gb2312(一次编码), gbk编码(二次扩充) 01000000 01111111 ==>中 ->bg18030(三次扩充,现在的windows默认编码) 到了台湾,big5编码 到了日本,JIS编码 01000000 01111111 ==>π 总共能新增65536个编码进去 01000000 01111111 ,中国与日本都是一样的编码,但表示的字符不一样 Unicode: 万国码.[国际标准组织编写的], 中文 ->行书, 草书, 律书 早期Unicode没意识到内容很多只有 ucs-2 2个字节,进行二次扩容,ucs-4 4个字节(000000000 000000000 000000000 11111110) utf: 是可变长度的Unicode,可以进行数据的传输和存储 ->行书, 草书, 律书 utf-8: 最短的字节长度8 英文: 8bit, 1byte 欧洲文字: 16bit(位),2byte(字节) 中文: 24bit(位), 3byte(字节) 苹果系统utf-8 ,Windows系统gbk编码 """ # 1.ASCII码: 8bit, 1byte # 2.源自(ascii码)gbk码: 16bit, 2byte__________Windows默认(一个字两个字节) # 3.Unicode码: 32bit, 4byte(没法用,只是一个标准) # 4.源自(unicode)utf-8:_______mac默认(苹果系统) # 英文1个字:8bit, 1字节 # 欧洲1个字:16bit, 2字节 # 中文1个字:24位, 3字节 # gbk和utf-8 不能直接进行转化 # 我军密码本-=>文字-=> 敌军密码本 print(2**16) # 2 的16 次方
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律