字符编码

1. ASCII (American Standard Code for Information Interchange,美国信息互换标准代码) 是基于拉丁字母的一套电脑编码系统, 共定义了128个字符。

编码方式:用一个字节表示 0x00~0x7F  缺点:只能显示26个基本拉丁字母、阿拉伯数目字和英式标点符号

二进制 十进制 十六进制 字符 解释
0000 0000 0 00 NULL(null)  
0011 0000 48 30 0 数字0
0100 0001 65 41 A  
0110 0001 97 61 a  
0111 1111 177 7F DEL 删除

2. ANSI编码 不同的国家和地区制定了不同的标准,由此产生了 GB2312、GBK、Big5、Shift_JIS 等各自的编码标准。这些使用 1 至 4 个字节来代表一个字符的各种延伸编码方式,称为 ANSI 编码

windows操作系统默认是ANSI编码。在简体中文OS中为GBK,在日文OS中为Shift_JIS。不同ANSI间不相互兼容。

一个好玩的例子(百度百科)GBK:新建一个空的文本文件,用记事本打开(必须是Windows自带的记事本),只输入“联通”二字保存关闭(输入“1联通”也是联通显示的也是乱码),再重新打开时将是乱码!

3. Unicode (万国码,统一码,国际码) 是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码,使得电脑可以用更为简单的方式来呈现和处理文字。

编码方式:两个字节表示一个字符

实现方式:Unicode的实现方式不同于编码方式。一个字符的Unicode编码是确定的。但是在实际传输过程中,由于不同系统平台的设计不一定一致,以及出于节省空间的目的,对Unicode编码的实现方式有所不同。Unicode的实现方式称为Unicode转换格式(Unicode Transformation Format,简称为UTF)

例如:如果一个仅包含基本7位ASCII字符的Unicode文件,如果每个字符都使用2字节的原Unicode编码传输,其第一字节的8位始终为0。可以使用UTF-8编码,这是一种变长编码,它将基本7位ASCII字符仍用7位编码表示,占用一个字节(首位补0)。

4. UTF-8 (8-bit Unicode Transformation Format) 是一种针对Unicode的可变长度字符编码

它可以用来表示Unicode标准中的任何字符,且其编码中的第一个字节仍与ASCII兼容,这使得原来处理ASCII字符的软件无须或只须做少部分修改,即可继续使用。因此,它逐渐成为电子邮件、网页及其他存储或发送文字的应用中,优先采用的编码。

UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。

字符 ASCII Unicode UTF-8
A 0100 0001 0000 0000 0100 0001 0100 0001
- 0100 1110 0010 1101 1110 0100 1011 1000 1010 1101

在计算机内存中,统一使用Unicode编码,当需要保存到硬盘或者需要传输的时候,就转换为UTF-8编码,可以节省空间~

5. GBK(Chinese Internal Code Specification)汉字内码扩展规范

posted @ 2016-05-26 11:53  huapyuan  阅读(273)  评论(0编辑  收藏  举报