字符集的进化史

ASCII（American Standard Code for Information Interchange，美国标准信息交换代码） 1967年，共128个字符，只需要1个字节的存储空间，可以表示阿拉伯数字和大小写英文字母，以及一些简单的符号。

ISO-8859-1，1987年，单字节编码，向下兼容ASCII。收录的字符除ASCII收录的字符外，还包括西欧语言、希腊语、泰语、阿拉伯语、希伯来语对应的文字符号。Latin1是ISO-8859-1的别名，有些环境下写作Latin-1。

GB2312《信息交换用汉字编码字符集》，1980年，兼容于ASCII，一共收录了7445个字符，包括6763个汉字和682个其它符号。

GBK《汉字内码扩展规范》，1995年，向下与 GB 2312 编码兼容，是在GB2312标准基础上的内码扩展规范，使用了双字节编码方案，共收录了21003个汉字。GBK字符集中所有字符占2个字节，不论中文英文都是2个字节。

GB18030《信息技术中文编码字符集》，2000年，其对GB 2312完全向后兼容，与GBK基本向后兼容。GB18030共收录汉字70244个。完全支持Unicode，无需动用造字区即可支持中国国内少数民族文字、中日韩和繁体汉字以及emoji等字符。

Unicode（统一码、万国码、单一码）1990年开始研发，1994年正式公布。Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。Unicode通常用两个字节表示一个字符，原有的英文编码从单字节变成双字节。

UTF-8（8位元，Universal Character Set/Unicode Transformation Format）1992年，是针对Unicode的一种可变长度字符编码。ASCII码中的内容用1个字节保存、欧洲的字符用2个字节保存，东亚的字符用3个字节保存。

posted @ 2019-11-21 11:58 问&路阅读(223) 评论(0) 收藏举报

问&路

字符集的进化史

公告