编码GBK和GB2312、Unicode、UTF-8

一、编码GBK和GB2312

随着计算机发展,各国已经不满足于单纯用ASCII码;

对于我们来说能在计算机中显示中文字符是至关重要的,所以我们还需要一张关于中文和数字对应的关系表;

一个字节8位二进制,只能最多表示256个字符,要处理中文显然一个字节是不够的;

所以我们需要采用两个字节来表示,而且还不能和ASCII编码冲突;

所以1980年中国制定了GB2312编码,国家简体中文字符集,兼容ASCII;

1995年制定了GBK编码,GB2312的扩展字符集,支持繁体字,兼容GB2312。

注:在GBK和GB2312中,一个中文字符占两个字节,16个二进制位,4个十六进制位。

 

如何兼容ASCII:

如何区别连在一起的2个字节是代表2个英文字母,还是一个中文汉字呢?

如果2个字节连在一起,且每个字节的第1位(也就是相当于128的那个2进制位)如果是1,就代表这是个中文,这个首位是128的字节被称为高字节。 也就是2个高字节连在一起,必然就是一个中文。

因为0-127已经表示了英文的绝大部分字符,128-255是ASCII的扩展表,表示的都是极特殊的字符,一般没什么用。

所以0-127位ASCII码,GB2312就直接拿来用了。

 

二、编码Unicode

全世界有上百种语言,日本把日文编到Shift_JIS里,韩国把韩文编到Euc-kr里;

各国有各国的标准,就会不可避免地出现冲突,结果就是,在多语言混合的文本中,显示出来会有乱码。

因此,1991年国际标准组织统一标准字符集,编码Unicode应运而生。

最常用的是用两个字节表示一个字符(如果要用到非常偏僻的字符,就需要4个字节)

 

三、编码UTF-8

如果统一成Unicode编码,乱码问题从此消失了;

但是,Unicode编码最少用两个字节,ASCII码中英文是一个字节;

如果文本基本上全部是英文,用Unicode编码需要多一倍存储空间,存储和传输十分费劲。

1992年创建UTF-8编码,是一种针对Unicode的可变长度字符编码,又称万国码;

UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节(每8位缩减),从而兼容所有编码,

英文字符1字节,欧洲字符2字节,中文字符3字节,只有很生僻的字符才会被编码成4-6个字节。

posted @ 2019-05-31 21:29  relex  阅读(1817)  评论(0编辑  收藏  举报