中文和英文在计算机中的存储表示

在计算机中,用ASCII码表示英文字母、数字以及其他功能性符号时,本身7bits足矣表示,但考虑到计算机设计,将首位设置为0,剩下7位表示。大写字母65-90,小写字母97-122,数字48-57。

中文的存储表示与英文不同,以GB2312-80标准为例,汉字+符号总共7445个。

这些汉字被切分为94个区,每个区有94个存储位置,一个汉字的存储表示就由区和位置共同决定。这就称为汉字区位码。

在区位码原始设计中,存在一个缺陷:如果汉字区位码位于0-31,,可能与ASCII码相冲突。结局方法就是区位码全部+32(16进制下是+02H),从32开始排列。当区位码全部+32后就成为了GB2312标准。如果还想要完全和ASCII码分离,可以再全部增加80H,此时就称为计算机的内码,可以存储在计算机中。

(原始区位码+20H-->GB2312   +80H----->内码)

简单的说,汉字码避免和ASCII码冲突的方法是将首位变为1。

posted @   namezhyp  阅读(935)  评论(0编辑  收藏  举报
编辑推荐:
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· AI 智能体引爆开源社区「GitHub 热点速览」
· Manus的开源复刻OpenManus初探
· 写一个简单的SQL生成工具
点击右上角即可分享
微信分享提示