字符集和编码

复制代码
#  字符集和编码
# 0 1 <=> 010101110 => 二进制转换成10进制 <=> 88
# 电脑如何进行存储文字信息
# 人为的规定  10010101 <=>  a
# 美国的科学家制定了统一的ascii码
# ASCII码==> 编排了128个文字符号,包含(字母,回车,各种特殊符号,标点等等)
# 只需要7个0和1就可以表示这128个符号.如:01101010
# (7个0和1,可以组合成不同的顺序)其中最开始的0也是加进去的=>1
# 1 byte(字节) ==> 8bit
# ANSI => 美国人提供的一套标准,每个字符 16bit,2byte
"""
01000000 01111111

到了中国,gb2312(一次编码), gbk编码(二次扩充)
01000000 01111111  ==>中
->bg18030(三次扩充,现在的windows默认编码)
到了台湾,big5编码
到了日本,JIS编码
01000000 01111111  ==>π
总共能新增65536个编码进去
01000000 01111111 ,中国与日本都是一样的编码,但表示的字符不一样
Unicode: 万国码.[国际标准组织编写的], 中文 ->行书, 草书, 律书
早期Unicode没意识到内容很多只有
ucs-2 2个字节,进行二次扩容,ucs-4 4个字节(000000000 000000000 000000000 11111110)
utf: 是可变长度的Unicode,可以进行数据的传输和存储 ->行书, 草书, 律书
utf-8: 最短的字节长度8
    英文: 8bit, 1byte
    欧洲文字: 16bit(位),2byte(字节)
    中文: 24bit(位), 3byte(字节)
苹果系统utf-8  ,Windows系统gbk编码
"""
# 1.ASCII码: 8bit, 1byte
# 2.源自(ascii码)gbk码: 16bit,  2byte__________Windows默认(一个字两个字节)
# 3.Unicode码: 32bit, 4byte(没法用,只是一个标准)
# 4.源自(unicode)utf-8:_______mac默认(苹果系统)
#       英文1个字:8bit, 1字节
#       欧洲1个字:16bit, 2字节
#       中文1个字:24位, 3字节
# gbk和utf-8 不能直接进行转化
# 我军密码本-=>文字-=> 敌军密码本
print(2**16)  # 2 的16 次方
复制代码

 

posted @   ascecc  阅读(45)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
点击右上角即可分享
微信分享提示