字符集编码

字符集

字符- 只有名字和显示的样式。例如:COMMA ,
字符码位(交换码)-每个字符定义一个唯一的数字表示(码位)。例如:0x2C ,
字符编码(内码)- 针对一套字符码位的映射算法,以在计算机内部用字节序列表示每个码位。

ASCII字符集
  主要针对英语使用
  每个字符的定义,字符码位和字符编码完全相同,最简单的映射关系

GB2312字符集
每个汉字或符号用两个字节来表示。分区(十进制)处理:
01-09区为特殊符号。
10-15区未有编码
16-55区为一级汉字,按拼音排序。
56-87区为二级汉字,按部首/笔画排序。
88-94区则未有编码
高位字节使用0xA1-0xF7(把01-87区的区号加上0xA0),低位字节使用0xA1-0xFE(把01-94加上0xA0)。
  例如:“啊”字是GB2312之中的第一个汉字,它的区位码是1601,会以0xB0A1储存。
          (因为16+0xA0=0xB0  01+0xA0=0xA1)

ISO8895字符集
  主要针对拉丁字母的语言

GBK
汉字内码扩展规范。
最初是MS对GB2312的扩展,得到国家认可但不是国家标准。
包括了原GB2312编码,编码范围是:高字节0x81-0xFE,低字节0x40-0xFE同时不包括

0x7F
对比
GBK:       0x81-0xFE, 0x40-0xFE,  -0x7F
GB2312:    0xA1-0xF7, 0xA1-0xFE


GB18030
国家标准
双字节部分完全采用GBK的内码系统,然后做了四字节扩展,四个字节的编码空间依次

是:0x81到0xFE,0x30到0x39,0x81到0xFE,0x30到0x39。总共1,587,600个码位
GB 18030-2000版本收录了全部27,484个CJK统一汉字
在编码体系上,GB18030统一了内码和交换码的概念
取代GBK


GB13000
与Unicode相同


ISO10646和Unicode
使各种语言的字符在编码上有与ASCII码相同地位,可以同时处理各国语言
ISO10646是国际标准,Unicode是行业标准
两者完全兼容
通用多八位编码字符集(UCS):四个八位位组的四维编码空间,分别表示组/面/行/位

即UCS-4形式
UCS-2就是00组中的00平面,即ISO 10646.1的基本多文种平面(BMP)。
为了与ASCII码兼容,推荐格式UTF-8:采用1-6个八位位组表示UCS中的一个字符

Unicode由the Unicode Consortium制定,兼容ISO10646
Unicode原始为16位编码,现在扩充为0--10FFFF

posted @ 2010-04-09 17:03  MayFirst  阅读(344)  评论(0编辑  收藏  举报