几种常见编码方式
在学习Python过程中接触到字符串类型str和bytes在bytes类型。计算机所有程序的计算都是用的str类型而在存储磁盘和网络传输中用的是bytes类型。
>>> s=s.encode("gbk")
>>> type(s)
<class 'bytes'>
电脑音痴的我百度了一下。
encode 用于编码,decode 用于解码。
原来"gbk"是一种编码形式。好吧。继续百度。有了初步的认识。
ASCII码:用来表示英文,它使用一个字节表示具体字符,其中第一位规定为0,其他7位存储数据,(2^7)一共可以表示128个字符。
扩展的ASCII码:由于欧洲国家的语言会有拼音存在所以用7位已经不能满足了所以一些欧洲国家决定利用闲置的最高位来表达更多的字符(2^8)所以有256个字符。
不过即使编码相同但是表示的字符也不同。
Unicode:简单来说是一个字符集。包含世界上所有字符。得益于互联网的发展。
GBK和GB2312,GB18030:GBK和GB2312都是简体中文编码。GB2312支持6千多汉字编码,GBK支持1万多汉字编码。GB18030是繁体中文编码。
UTF-8:UF-8是Unicode的实现方式之一,是互联网使用最为广泛的编码。用1-4个字节表示符号。根据不同字节长度变化不同符号。
继续...
ASCIIS码: 1个英文字母(不分大小写)= 1个字节的空间 1个中文汉字 = 2个字节的空间 1个ASCII码 = 一个字节
Unicode编码:1个英文字符 = 2个字节 英文标点 = 2个字节 1个中文(含繁体) = 2个字节 中文标点 = 2个字节
UTF-8编码:1个英文字符 = 1个字节 英文标点 = 1个字节 1个中文(含繁体) = 3个字节 中文标点 = 3个字节
继续补充中...