day08-字符编码

计算机基础

期间发生的转化过程我们称之为字符编码

由于计算机是由美国人发明，最早的字符编码为ASCII，只规定了英文字母数字和一些特殊字符与数字的对应关系。最多只能用8位来表示（一个字节），即：2**8=256。所以，ASCII码最多只能表示256个符号

但是在处理数据时，不同的国家有不同的语言，所以中国人规定了自己的标准gb2312编码，规定了包含中文在内的字符与数字的对应关系。日本人也会在自己的程序中加入日文。

但是用多国语言编写的文档该用那种编码格式呢？都会出现乱码现象。所以迫切需要一个世界的标准（能包含全世界的语言）于是Unicode应运而生

但是发现unicode编码太浪费内存了,所以做出了一套精简的utf8编码，UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4-6个字节。utf8的出现只是为了节省空间

解释语法的时候,生成变量时会把这个字符丢入内存,这个时候会有两种情况,一种是str编码,一种是unicode编码

Python3中都是Unicode编码的

解释定义变量的语法,会新开辟一块内存空间放入这个变量,然后这个变量在python3中以unicode的形式存储,如字符x = '上',被python3解释后在内存中会变成x=1010101010101100.理论上print(x)相当于输出1010101010101100,但是这个1010101010101100对于程序员来讲看不懂,所以python3创始人龟叔做了这个操作-把1010101010101100编码按终端的编码格式输出编码后的结果,如上.
解释定义变量的语法,会新开辟一块内存空间放入这个变量,然后假设这个变量在python3中以utf-8的形式存储,如字符x = '上',被python3解释后再内存中会变成x=000001101010.理论上print(x)相当于输出000001101010,但是这个000001101010对于程序员来讲看不懂,所以python3创始人龟叔做了这个操作-把000001101010编码按终端的编码格式输出编码后的结果,如上.如果终端的编码为gbk,终端无法识别000001101010.

所以新开辟空间放入变量的时候,就用unicode转换,则终端无论是什么形式的编码格式,都能够识别并打印.

posted @ 2019-05-27 19:55 Never&say&die 阅读(135) 评论(0) 编辑收藏举报

刷新页面返回顶部