关于编码的一个笔记

类型 字节长度 能存多少
byte 0~255 256
short 2 byte 65536
int 4 byte 42亿
long 8 byte
float 4 byte
double 8 byte
char 2 byte in Java

Unicode 用 int 存储

但是,Unicode用四个字节,太过浪费

码点 : 每个数字代表一个字符,叫做“码点”(code point)

内码和外码

  1. 内码(internal encoding):某种语言运行时,其char和string在内存中的编码方式

JVM中内码采用utf-16。早期,utf-16采用固定长度2字节的方式编码,两个字节可以表示65536种符号,足以表示当时unicode中所有字符。但是随着unicode中字符的增加,2个字节无法表示所有的字符,utf-16采用了2字节或4字节的方式来完成编码。Java为应对这种情况,考虑到向前兼容的要求,Java用一对char来表示那些需要4字节的字符。所以,java中的char是占用两个字节,只不过有些字符需要两个char来表示。

  1. 外码(external encoding)):除了内码,皆是外码

源代码编译产生的目标代码文件(可执行文件或class文件)中的编码方式属于外码。


Java的class文件采用utf-8来存储字符,也就是说,class中字符占1~6个字节。

Java序列化时,字符也采用utf-8编码,占1~6个字符。

Unicode 和 UTF 的区别:

  • Unicode:统一的字符编号,仅仅提供字符与编号间映射
  • UTF :unicode转换格式 (unicode transformation format) 。定义unicode中编号的编码方式。

常见的两种方式:

  • UTF-16:Java 程序内部的存储方法

UTF-16为变长表示,长度可能是 2 或 4 个字节

  • UTF-8
    • Mac/Linux 默认编码是 UTF-8
    • Windows 默认的中⽂编码是 GBK

UTF-8为变长表示,长度可能是 1~6 个字节
如果没有意外,把所有的编码方案都改成 UTF-8

utf-16 编码中,英文字符占两个字节;绝大多数汉字(尤其是常用汉字)占用两个字节,个别汉字(在后期加入unicode 编码的汉字,一般是极少用到的生僻字)占用四个字节。

utf-8 编码中,英文字符占用一个字节;绝大多数汉字占用三个字节,个别汉字占用四个字节。

posted @   带了1个小才艺  阅读(323)  评论(0编辑  收藏  举报
编辑推荐:
· .NET制作智能桌面机器人:结合BotSharp智能体框架开发语音交互
· 软件产品开发中常见的10个问题及处理方法
· .NET 原生驾驭 AI 新基建实战系列:向量数据库的应用与畅想
· 从问题排查到源码分析:ActiveMQ消费端频繁日志刷屏的秘密
· 一次Java后端服务间歇性响应慢的问题排查记录
阅读排行:
· 互联网不景气了那就玩玩嵌入式吧,用纯.NET开发并制作一个智能桌面机器人(四):结合BotSharp
· Vite CVE-2025-30208 安全漏洞
· 《HelloGitHub》第 108 期
· MQ 如何保证数据一致性?
· 一个基于 .NET 开源免费的异地组网和内网穿透工具
点击右上角即可分享
微信分享提示