关于编码的一个笔记

类型	字节长度	能存多少
byte	0~255	256
short	2 byte	65536
int	4 byte	42亿
long	8 byte
float	4 byte
double	8 byte
char	2 byte in Java

Unicode 用 int 存储

但是，Unicode用四个字节，太过浪费

码点 : 每个数字代表一个字符，叫做“码点”（code point）

内码和外码：

内码（internal encoding）：某种语言运行时，其char和string在内存中的编码方式

JVM中内码采用utf-16。早期，utf-16采用固定长度2字节的方式编码，两个字节可以表示65536种符号，足以表示当时unicode中所有字符。但是随着unicode中字符的增加，2个字节无法表示所有的字符，utf-16采用了2字节或4字节的方式来完成编码。Java为应对这种情况，考虑到向前兼容的要求，Java用一对char来表示那些需要4字节的字符。所以，java中的char是占用两个字节，只不过有些字符需要两个char来表示。

外码（external encoding））：除了内码，皆是外码

源代码编译产生的目标代码文件（可执行文件或class文件）中的编码方式属于外码。

Java的class文件采用utf-8来存储字符，也就是说，class中字符占1～6个字节。

Java序列化时，字符也采用utf-8编码，占1～6个字符。

Unicode 和 UTF 的区别：

Unicode：统一的字符编号，仅仅提供字符与编号间映射
UTF ：unicode转换格式 (unicode transformation format) 。定义unicode中编号的编码方式。

常见的两种方式：

UTF-16：Java 程序内部的存储方法

UTF-16为变长表示，长度可能是 2 或 4 个字节

UTF-8：
- Mac/Linux 默认编码是 UTF-8
- Windows 默认的中⽂编码是 GBK

UTF-8为变长表示，长度可能是 1～6 个字节
如果没有意外，把所有的编码方案都改成 UTF-8

utf-16 编码中，英文字符占两个字节；绝大多数汉字（尤其是常用汉字）占用两个字节，个别汉字（在后期加入unicode 编码的汉字，一般是极少用到的生僻字）占用四个字节。

utf-8 编码中，英文字符占用一个字节；绝大多数汉字占用三个字节，个别汉字占用四个字节。

posted @ 2020-01-08 18:07 带了1个小才艺阅读(342) 评论(0) 收藏举报

刷新页面返回顶部

emmm

关于编码的一个笔记

公告