编码GBK和GB2312、Unicode、UTF-8

一、编码GBK和GB2312

随着计算机发展，各国已经不满足于单纯用ASCII码；

对于我们来说能在计算机中显示中文字符是至关重要的，所以我们还需要一张关于中文和数字对应的关系表；

一个字节8位二进制，只能最多表示256个字符，要处理中文显然一个字节是不够的；

所以我们需要采用两个字节来表示，而且还不能和ASCII编码冲突；

所以1980年中国制定了GB2312编码，国家简体中文字符集，兼容ASCII；

1995年制定了GBK编码，GB2312的扩展字符集，支持繁体字，兼容GB2312。

注：在GBK和GB2312中，一个中文字符占两个字节，16个二进制位，4个十六进制位。

如何兼容ASCII：

如何区别连在一起的2个字节是代表2个英文字母，还是一个中文汉字呢？

如果2个字节连在一起，且每个字节的第1位(也就是相当于128的那个2进制位)如果是1，就代表这是个中文，这个首位是128的字节被称为高字节。也就是2个高字节连在一起，必然就是一个中文。

因为0-127已经表示了英文的绝大部分字符，128-255是ASCII的扩展表，表示的都是极特殊的字符，一般没什么用。

所以0-127位ASCII码，GB2312就直接拿来用了。

二、编码Unicode

全世界有上百种语言，日本把日文编到Shift_JIS里，韩国把韩文编到Euc-kr里；

各国有各国的标准，就会不可避免地出现冲突，结果就是，在多语言混合的文本中，显示出来会有乱码。

因此，1991年国际标准组织统一标准字符集，编码Unicode应运而生。

最常用的是用两个字节表示一个字符（如果要用到非常偏僻的字符，就需要4个字节）

三、编码UTF-8

如果统一成Unicode编码，乱码问题从此消失了；

但是，Unicode编码最少用两个字节，ASCII码中英文是一个字节；

如果文本基本上全部是英文，用Unicode编码需要多一倍存储空间，存储和传输十分费劲。

1992年创建UTF-8编码，是一种针对Unicode的可变长度字符编码，又称万国码；

UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节（每8位缩减），从而兼容所有编码，

英文字符1字节，欧洲字符2字节，中文字符3字节，只有很生僻的字符才会被编码成4-6个字节。

posted @ 2019-05-31 21:29 relex 阅读(1917) 评论(0) 收藏举报

刷新页面返回顶部

relex