字符集的进化史

ASCII(American Standard Code for Information Interchange,美国标准信息交换代码) 1967年,共128个字符,只需要1个字节的存储空间,可以表示阿拉伯数字和大小写英文字母,以及一些简单的符号。

ISO-8859-1,1987年,单字节编码,向下兼容ASCII。收录的字符除ASCII收录的字符外,还包括西欧语言、希腊语、泰语、阿拉伯语、希伯来语对应的文字符号。Latin1是ISO-8859-1的别名,有些环境下写作Latin-1。

GB2312《信息交换用汉字编码字符集》,1980年,兼容于ASCII,一共收录了7445个字符,包括6763个汉字和682个其它符号。

GBK《汉字内码扩展规范》,1995年,向下与 GB 2312 编码兼容,是在GB2312标准基础上的内码扩展规范,使用了双字节编码方案,共收录了21003个汉字。GBK字符集中所有字符占2个字节,不论中文英文都是2个字节。

GB18030《信息技术 中文编码字符集》,2000年,其对GB 2312完全向后兼容,与GBK基本向后兼容。GB18030共收录汉字70244个。完全支持Unicode,无需动用造字区即可支持中国国内少数民族文字、中日韩和繁体汉字以及emoji等字符。

Unicode(统一码、万国码、单一码)1990年开始研发,1994年正式公布。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。Unicode通常用两个字节表示一个字符,原有的英文编码从单字节变成双字节。

UTF-8(8位元,Universal Character Set/Unicode Transformation Format)1992年,是针对Unicode的一种可变长度字符编码。ASCII码中的内容用1个字节保存、欧洲的字符用2个字节保存,东亚的字符用3个字节保存。

posted @ 2019-11-21 11:58  问&路  阅读(203)  评论(0编辑  收藏  举报