ASCII、Unicode、GBK、UTF-8编码

一.ASCII编码

ASCII(American Standard Code for Information Interchange,美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO/IEC 646。

ASCII 码使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符。标准ASCII 码也叫基础ASCII码,使用7 位二进制数(剩下的1位二进制为0)来表示所有的大写和小写字母,数字0 到9、标点符号, 以及在美式英语中使用的特殊控制字符。

0~31及127(共33个)是控制字符或通信专用字符(其余为可显示字符),ASCII值为8、9、10 和13 分别转换为退格、制表、换行和回车字符。它们并没有特定的图形显示,但会依不同的应用程序,而对文本显示有不同的影响。

32~126(共95个)是字符(32是空格),其中48~57为0到9十个阿拉伯数字。65~90为26个大写英文字母,97~122号为26个小写英文字母,其余为一些标点符号、运算符号等。

后128个称为扩展ASCII码。

二、GBK编码

由于ASCII编码不支持中文,因此我们就需要寻求一种编码方式来支持中文。国人就定义了一套编码规则:当字符小于127位时,与ASCII的字符相同,但当两个大于127的字符连接在一起时,就代表一个汉字,第一个字节称为高字节(从0xA1-0xF7),第二个字节为低字节(从0xA1-0xFE),这样大约可以组合7000多个简体汉字。这个规则叫做GB2312

由于中国汉字很多,有些字无法表示,后来修改了规则:不在要求低字节一定是127之后的编码,只要第一个字节是大于127,就固定表示这是一个汉字的开始,不管后面跟的是不是扩展字符集里的内容。这种扩展之后的编码方案称之为GBK标,向下包容了GB2312,同时新增了近20000个新的汉字(包括繁体字)和符号。

之后考虑到少数民族对计算机的使用,再次对编码规则进行了扩展,又加了近几千个少数民族的字符,于是再次扩展后得编码叫做GB18030

三、Unicode字符集

像我们制定GBK编码的问题的确能有效解决中文问题,但这个方法也会衍生出另一个问题,如果每个国家都制定一套或者多套编码规则,那岂不是太过冗余了。而且这个方法仅对自己国家有效,随着全球化的加深,各国之间的交流迫切需要一套通用的编码规则。为此ISO(国际标准化组织)定义了一套叫做叫做Unicode的新编码方案。注意Unicode不是一个新的编码规则,而是一套字符集(为每一个字符分配一个唯一的码位),可以将Unicode理解为一本世界编码的字典。

ISO规定:每个字符必须使用俩个字节,即用16位二进制来表示所有的字符,对于ASCII编码表里的字符,保持其编码不变,只是将长度扩展到了16位,其他国家的字符全部统一重新编码。由于传输ASCII表里的字符时,实际上可以只用一个字节就可以表示,在传输数据比较浪费带宽,存储数据比较浪费硬盘。所以,这种编码方案在推出后并没有被广泛使用,但随着各国间交流的日益频繁,这套规则的重要性就体现出来了。

四、UTF-8编码

由于Unicode比较浪费网络带宽和硬盘,因此为了解决这个问题,就在Unicode的基础上,定义了一套编码规则(将码位转换为字节序列的规则(编码/解码 可以理解为 加密/解密 的过程)),这个新的编码规则就是UTF-8,采用1-4个字符进行传输和存储数据。

​具体编码规则可以参考:https://blog.csdn.net/xiao297328/article/details/78725830

五、UTF-8、Unicode与GBK之间的关系

UTF-8--------decode(解码)----->>Unicode类型<<-------decode(解码)-----GBK

UTF-8<<--------encode(编码)-----Unicode类型-------encode(编码)----->>GBK

posted @ 2020-10-22 16:13  straightup  阅读(257)  评论(0编辑  收藏  举报