中文和英文在计算机中的存储表示

在计算机中，用ASCII码表示英文字母、数字以及其他功能性符号时，本身7bits足矣表示，但考虑到计算机设计，将首位设置为0，剩下7位表示。大写字母65－90，小写字母97－122，数字48－57。

中文的存储表示与英文不同，以GB2312－80标准为例，汉字+符号总共7445个。

这些汉字被切分为94个区，每个区有94个存储位置，一个汉字的存储表示就由区和位置共同决定。这就称为汉字区位码。

在区位码原始设计中，存在一个缺陷：如果汉字区位码位于0－31，，可能与ASCII码相冲突。结局方法就是区位码全部+32（16进制下是+02H），从32开始排列。当区位码全部+32后就成为了GB2312标准。如果还想要完全和ASCII码分离，可以再全部增加80H，此时就称为计算机的内码，可以存储在计算机中。

（原始区位码+20H－－>GB2312 +80H----->内码）

简单的说，汉字码避免和ASCII码冲突的方法是将首位变为1。

posted @ 2021-05-18 18:49 namezhyp 阅读(881) 评论(0) 编辑收藏举报

刷新页面返回顶部

中文和英文在计算机中的存储表示

公告