国标码与机内码

输入码、区位码、国标码与机内码

国家标准局1980年颁布的《信息交换用汉字编码字符集"基本集》（代号为GB2312 80）规定的汉字交换码作为国家标准汉字编码。 GB2312 80中共有7445个字符符号：汉字符号6763个一级汉字3755个（按汉语拼音字母顺序排列）二级汉字3008个（按部首笔划顺序排列）非汉字符号682个 GB2312 80规定，我们知道，键盘是当前微机的主要输入设备，;输入码就是使用英文键盘输入汉字时的编码。目前，我国已推出的输入码有数百种，但用户使用较多的约为十几种，按输入码编码的主要依据，大体可分为顺序码、音码、形码、音形码四类，如“保”字，用全拼，输入码为码为“BAO”，用区位码，输入码为“1703”，用五笔字型则为“WKS”。

计算机只识别由0、1组成的代码，ASCII码是英文信息处理的标准编码，汉字信息处理也必须有一个统一的标准编码。汉字交换码（国标码）主要用于汉字信息交换，我国国家标准局于1981年5月颁布了《信息交换用汉字编码字符集——基本集》，代号为GB2312-80，共对6763个汉字和682个图形字符进行了编码，其编码原则为：汉字用两个字节表示，每个字节用七位码（高位为0），;所有的国标码汉字及符号组成一个94行94列的二维代码表中。在此方阵中，每一行称为一个"区"，每一列称为一个"位"。这个方阵实际上组成一个有94个区（编号由01到94），每个区有94个位（编号由01到94）的汉字字符集。每两个字节分别用两位十进制编码，前字节的编码称为区码，后字节的编码称为位码，此即区位码，其中，高两位为区号，低两位为位号。这样区位码可以唯一地确定某一汉字或字符；反之，任何一个汉字或符号都对应一个唯一的区位码，没有重码。如“保”字在二维代码表中处于17区第3位，区位码即为“1703 ”。

国标码并不等于区位码，它是由区位码稍作转换得到,其转换方法为：先将十进制区码和位码转换为十六进制的区码和位码，;这样就得了一个与国标码有一个相对位置差的代码，;再将这个代码的第一个字节和第二个字节分别加上20H，就得到国标码。如：“保”字的国标码为3123H，它是经过下面的转换得到的：1703D－>1103H->+20H－>3123H。

国标码是汉字信息交换的标准编码，但因其前后字节的最高位为0，与ASCII码发生冲突，如“保”字，国标码为31H和23H，而西文字符“1”和“#”的SCII也为31H和23H，现假如内存中有两个字节为31H和23H，;这到底是一个汉字，还是两个西文字符“1”;和“#”?于是就出现了二义性，显然，国标码是不可能在计算机内部直接采用的，于是，;汉字的机内码采用变形国标码，其变换方法为：将国标码的每个字节都加上128，即将两个字节的最高位由0改1，其余7位不变，如：由上面我们知道，“保”字的国标码为3123H，前字节为00110001B，后字节为00100011B，高位改1为10110001B和10100011B 即为B1A3H，因此，字的机内码就是B1A3H;。

显然，汉字机内码的每个字节都大于128，这就解决了与西文字符的ASCII码冲突的问题。

如上所述，汉字输入码、区位码、;国标码与机内码都是汉字的编码形式，它们之间有着千丝万缕的联系，但其间的区别也是不容忽视的。

各数制之间的转换　　

我们用R表示任何数制的基数，讨论各数制之间的转换。　　

1.R进制数转换为十进制数　　

二进制、八进制和十六进制数转换为等值的十进制数，只要把它们用多项式表示并在十进制下进行计算，所得的结果就是十进制数。　　

2.十进制数转换为R进制数　　十进制数转换为等值的二进制、八进制和十六进制数，需要对整数部分和小数部分分别进行转换。其整数部分用连续除以基数R取余数的方法来完成，小数部分用连续乘以基数R取整数的方法来实现。　　　　　

基数　　基数　　基数　　　基数　　基数

十进制　　10000　　1000　　　100　　　10　　　　1

二进制　　　16　　　　8　　　　4　　　　2　　　 1

八进制　　4096　　　512　　　　64　　　8　　　　1

十六进制　65536　　4096　　　256　　　16　　　　1 　　

3.二进制数与八进制数、十六进制数的转换　　

二进制数与八进制数的转换应以"3位二进制数对应1位八进制数"的原则进行。同理，因为24=16，则二进制数与十六进制数的转换应以"4位二进制数对应1位十六进制数"的原则进行。　　

二进制数的运算　　

在计算机中，二进制数的运算包括算术运算和逻辑运算。　

　1.二进制数的算术运算　　

(1)二进制数加法　　加法原则：逢二进一　　

(2)二进制数减法　　减法原则：借一当二　　

(3)二进制数乘法　　乘法原则：与算术乘法形式相同　　

(4)二进制数除法　　除法原则：与算术除法形式相同　　

2.二进制数的逻辑运算　　

逻辑运算是以二进制数为基础的，逻辑变量只有两个，用来表示逻辑"真"和"假"。　　 (1)逻辑加法("或"运算) 　　运算符号："＋"或"∨" 　　运算规则：0+0=0；0+1=1；1+0=1；1+1=1；　　

(2)逻辑乘法("与"运算) 　　运算符号："×"或"∧" 　　运算规则：0×0=0；0×1=0；1×0=0；1×1=1；　　

(3)逻辑"非"运算　　运算符号："-"%运算规则：A&-*=0时，A=1 　　

五、数据类型及数据单位　　

1.数据的两种类型　　

计算机中的数据可概括分为两大类：数值型数据和字符型数据。所有的非数值型数据都要经过数字化后才能在计算机中存储和处理。　　

2.数据单位　　

在计算机中通常使用三个数据单位：位、字节和字。

位的概念是：最小的存储单位，英文名称是bit，常用小写b或bit表示。

用8位二进制数作为表示字符和数字的基本单元，　　英文名称是byte，称为一字节。通常用大"B"表示。　　

1B(字节)=8b(位) 　　

1KB(千字节)=1024B(字节) 　　

1MB(兆字节)=1024KB(千字节) 　

　字长：字长也称为字或计算机字，它是计算机能并行处理的二进制数的位数。　　

六、字符编码与汉字编码　

　1.字符编码　　目前微型机中普遍采用的字符编码是ASCII码。它是用七位二进制数对127个字符进行编码，其中前32个是一些不可打印的控制符号。　　

2.汉字编码及字模信息　　

汉字有两种编码：国标码与机内码。　　

国标码是"中华人民共和国国家标准信息交换汉字编码"，代号为"GB2312-80"。在国标码的字符集中，收集了一级汉字3755个，二级汉字3008个，图形符号682个，共7445个。一个汉字对应一个区位码，由四位数字组成，前两位数字为区码(0～94)，后两位数字为位码(0～94)。机内码是指汉字在计算机中的编码　　

汉字的机内码占两个字节，分别称为机内码的高位与低位。

它们与区位码的关系如下：　　

机内码高位=区码+A0H 　　机内码低位=位码+A0H 　　

汉字字库是由所有汉字的字模信息构成的。一个汉字字模信息占若干字节，究竟占多少个字节由汉字的字形决定。　　例如，如果用16×16点阵表示一个汉字，则一个汉字占16行，每行有16个点，在存储时用两个字节存放一行上16个点的信息，对应位为"0"表示该点为"白"，"1"表示该点为"黑"。因此，一个16×16点阵的汉字占32个字节。

posted on 2008-11-11 19:39 Sunwayking 阅读(3155) 评论(0) 收藏举报

刷新页面返回顶部

Sunwayking

导航

公告

国标码与机内码