字符集和编码

#  字符集和编码
# 0 1 <=> 010101110 => 二进制转换成10进制 <=> 88
# 电脑如何进行存储文字信息
# 人为的规定  10010101 <=>  a
# 美国的科学家制定了统一的ascii码
# ASCII码==> 编排了128个文字符号,包含(字母,回车,各种特殊符号,标点等等)
# 只需要7个0和1就可以表示这128个符号.如:01101010
# (7个0和1,可以组合成不同的顺序)其中最开始的0也是加进去的=>1
# 1 byte(字节) ==> 8bit
# ANSI => 美国人提供的一套标准,每个字符 16bit,2byte
"""
01000000 01111111

到了中国,gb2312(一次编码), gbk编码(二次扩充)
01000000 01111111  ==>中
->bg18030(三次扩充,现在的windows默认编码)
到了台湾,big5编码
到了日本,JIS编码
01000000 01111111  ==>π
总共能新增65536个编码进去
01000000 01111111 ,中国与日本都是一样的编码,但表示的字符不一样
Unicode: 万国码.[国际标准组织编写的], 中文 ->行书, 草书, 律书
早期Unicode没意识到内容很多只有
ucs-2 2个字节,进行二次扩容,ucs-4 4个字节(000000000 000000000 000000000 11111110)
utf: 是可变长度的Unicode,可以进行数据的传输和存储 ->行书, 草书, 律书
utf-8: 最短的字节长度8
    英文: 8bit, 1byte
    欧洲文字: 16bit(位),2byte(字节)
    中文: 24bit(位), 3byte(字节)
苹果系统utf-8  ,Windows系统gbk编码
"""
# 1.ASCII码: 8bit, 1byte
# 2.源自(ascii码)gbk码: 16bit,  2byte__________Windows默认(一个字两个字节)
# 3.Unicode码: 32bit, 4byte(没法用,只是一个标准)
# 4.源自(unicode)utf-8:_______mac默认(苹果系统)
#       英文1个字:8bit, 1字节
#       欧洲1个字:16bit, 2字节
#       中文1个字:24位, 3字节
# gbk和utf-8 不能直接进行转化
# 我军密码本-=>文字-=> 敌军密码本
print(2**16)  # 2 的16 次方

posted @ 2022-05-17 14:08 ascecc 阅读(45) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 字符集bytes

· Python学习记录0.1字符串的常规操作

· 字符集与字符编码

· 计算机基础：字符集和编码

· 字符集、编码格式的理解

阅读排行：
· 震惊！C++程序真的从main开始吗？99%的程序员都答错了
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理
· 上周热点回顾（3.3-3.9）
· winform 绘制太阳，地球，月球运作规律

公告

昵称： ascecc
园龄： 2年11个月
粉丝： 0
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

ascecc

字符集和编码

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜