中文和英文在计算机中的存储表示
在计算机中,用ASCII码表示英文字母、数字以及其他功能性符号时,本身7bits足矣表示,但考虑到计算机设计,将首位设置为0,剩下7位表示。大写字母65-90,小写字母97-122,数字48-57。
中文的存储表示与英文不同,以GB2312-80标准为例,汉字+符号总共7445个。
这些汉字被切分为94个区,每个区有94个存储位置,一个汉字的存储表示就由区和位置共同决定。这就称为汉字区位码。
在区位码原始设计中,存在一个缺陷:如果汉字区位码位于0-31,,可能与ASCII码相冲突。结局方法就是区位码全部+32(16进制下是+02H),从32开始排列。当区位码全部+32后就成为了GB2312标准。如果还想要完全和ASCII码分离,可以再全部增加80H,此时就称为计算机的内码,可以存储在计算机中。
(原始区位码+20H-->GB2312 +80H----->内码)
简单的说,汉字码避免和ASCII码冲突的方法是将首位变为1。