常见编码GBK、GB2312、UTF-8、ISO-8859-1的区别

https://blog.csdn.net/shijing_0214/article/details/50908144

在项目开发中，会经常遇到不同的编码方式。不管什么编码，都是信息在计算机中的一种表现，理解常见的编码方式，有助于我们避免出现乱码等现象。最初的计算机字符编码是通过ASCII来编码的，是现今最通用的单字节编码系统，使用7位二进制数来表示所有的字母、数字、标点符号及一些特殊控制字符，作为美国编码标准来使用。

ISO-8859-1编码是单字节编码，向下兼容ASCII，是许多欧洲国家使用的编码标准。其编码范围是0x00-0xFF，0x00-0x7F之间完全和ASCII一致，0x80-0x9F之间是控制字符，0xA0-0xFF之间是文字符号。

Unicode，学名是Universal Multiple-Octet Coded Character Set（简称UCF），与ISO-8859-1标准兼容。由国际组织标准制定，作为一种国际语言编码标准，支持超过十万个字符，涵盖世界数十种文字系统，是一种通用字符编码标准。很多技术，如Java编程语言、现代操作系统都采用了Unicode编码。

UTF-8/UTF-16等则是对Unicode进行了编码，是其一种实现方式。UTF-8(8-bit Unicode Transformation Format)，是一种变长的编码方式，它以8位为码元,用1-6个码元对Unicode进行编码，对英文字符使用单字节编码，对中文编码用到三个字节来编码。UTF-16(16-bit Unicode Transformation Format)是用16位为码元，用1个或2个码元对Unicode进行编码。utf-16将字符集划分为基本多文中平面和辅助平面，基本多文中平面中的字符与Unicode是一致的，不需要转换；处在辅助平面中的码元（如一些拼音文字或者中日韩表意文字的扩充），需要2个码元进行编码。

GB2312是国家制定的汉字编码标准，使用双子节进行编码，共收入6763个汉字和682个非汉字图形字符。GBK即对国标编码的扩展，在GB2312的基础上进行扩展形成的，使用双子节编码方式，共收入21003个汉字，从而大大满足了汉字使用的需要。

总结 unicode是国际通用编码标准，可以表示全世界的字符，但其字符集也是最复杂、占用空间最大的。开发者可以根据需要进行选择编码方式。

posted @ 2018-08-17 14:47 SAP虾客阅读(1399) 评论(0) 收藏举报

刷新页面返回顶部

常见编码GBK、GB2312、UTF-8、ISO-8859-1的区别

公告