字符集和编码的区别
ascII、unicode、gb2312等都是字符集,用于定义编号指代的字符。utf-8,utf-16则是unicode的编码格式。
ascII
ascII只有128个,能表示英文、数字、常用符号。
gb2312
gb2312是中文特有的字符集,有2万多个字符,前128个和ascII保持一致,因此能兼容ascII。ascII码用1个字节表示,中文用2个字节表示。gbk是在gb2312基础上扩容而来的。
unicode
unicode则是为了让全球能用上统一的字符集而发明的,有6万多个字符,每个字符占2个字节,比如英文a,ascII是97、unicode则是0097(示意的说法)。中文只收录最常用的6000多个汉字。unicode虽然是大一统的标准,但是在表示英文时浪费空间,并且许多古老的程序只支持ascII,unicode从标准设计上来说是不兼容ascII。正因如此在实际使用中unicode会以utf-8,utf-16等编码方式存储是传输。utf-8保持和ascII一致,英文使用1个字节,其他字符使用2-6个字节,比如中文多数是3个字节。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· 展开说说关于C#中ORM框架的用法!
· SQL Server 2025 AI相关能力初探
· Pantheons:用 TypeScript 打造主流大模型对话的一站式集成库