字符编码的发展史

字符编码

字符串类型、文本文件的内容都是由字符组成的，但凡涉及到字符的存取，都需要考虑字符编码的问题。

人类在与计算机交互时，用的都是人类能读懂的字符，如中文字符、英文字符、日文字符等
而计算机只能识别二进制数

翻译的过程必须参照一个特定的标准，该标准称之为字符编码表，该表上存放的就是字符与数字一一对应的关系。


0     a
1	  b
00    aa
01    ab
000
001
010

字符编码的发展史

1. 一家独大：
	计算机起源于美国，所以，最开始的时候，计算机只考虑了英文字符
    	ASCII码表：
        	'''
        		1、只有英文字符与数字的一一对应关系
        		2、一个英文字符对应1Bytes，1Bytes=8bit，8bit最多包含256个数字，可以对应256个字符，足够表示所有英文字符
				
				0 : 48
				A ：65
				a : 97
        	'''
            
 2 . 群雄割据
	为了让计算机能够识别中文和英文，中国人定制了GBK
    	GBK编码：
        	# GBK表的特点：
    		1、只有中文字符、英文字符与数字的一一对应关系
             2、 一个中文字符使用两个或者两个以上的bytes记录
                2bytes = 16位 
                16位可以表示 2 ** 16 种情况
                
                '''
                	如果超过了2 ** 16,gbk就会使用一个中文字符用3个字节表示
                '''
             # Shift_JIS表的特点：
            1、只有日文字符、英文字符与数字的一一对应关系

        	# Euc-kr表的特点：
            1、只有韩文字符、英文字符与数字的一一对应关系   
3. 分久必合
	为了让世界各国的字符统一起来，就诞生了unicode编码
    	unicode(万国码): 统一使用2个字节进行表示
            	eg：adsadsadsadsadsad
         # 1. 存在所有语言中的所有字符与数字的一一对应关系,即兼容万国字符
         
         utf-8编码（unicode的优化版本）
         '''
         	把英文字符还按照一个字节表示
         	中文字符还按照2个字节或者更多字节表示
         '''
      得出结论：以后我们都使用utf-8编码

字符编码的差异

1. 如何解决乱码问题
	切换对应的编码
2. python解释器版本不同代码的差异
	python2
    python3
    
    '''
    	python2诞生的时候，还没有utf8的编码，所以，python2中不能使用utf8的编码
    '''
 3. pycharm如何添加模板注释
	settings
    	editor
        	file and code templates
            	python script
                	 在这个里面写你想添加的内容
                    
  4. 编码与解码
	   编码：
    		# 把人类能够读懂的字符按照转成计算机能够识别的字符的过程
       解码
    		# 把计算机能够读懂的字符按照转成人类能够识别的字符的过程
       如何操作？
    	s = '你好啊，世界'
        # 编码
        # print(s.encode('gbk'))
        s1 = s.encode('utf8')

        # 解码
        s2 = s1.decode('utf8')
        print(s2)

posted on 2022-01-03 12:57 Hzangyao 阅读(124) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· python之文件处理

· MySQL初识

· 03_01、字符编码

· Python中的字符编码

· 字符编码

Hzangyao

导航

公告

统计

搜索

常用链接

随笔档案

阅读排行榜

字符编码的发展史

字符编码

字符编码的发展史

字符编码的差异