字符编码问题

1. 字符编码

ASCII编码采1字节,8bit,最多有256个字符ASCII编码无法适应其他语言的字符，后来有了扩展编码（采用变长ASCII编码的形式）。

GBK,GB2132,GB18030中文简体

ISO8859西欧语言

BIG5繁体中文

1.1. unicode编码

为了统一不同的字符集，不断扩充，直到包含所有字符。

编码方案：

UTF-8，兼容ASCII码，采用变长的方式来存储字符，使用1~4个字节来存储。
UTF-16,采用变长的方式来存储字符，使用2~4个字节来存储。
UTF-32,使用4个字节来存储所有的字符。
（windows系统下的ANSI编码在不同的操作系统代表不同的字符集，简体中文为GBK，繁体中文为BIG5）

2. windowsCMD窗口编码格式设置：

CHCP是一个计算机指令，能够显示或设置活动代码页编号。

CHCP 65001 UTF-8代码页
CHCP 950 繁体中文
CHCP 936 简体中文默认的GBK

由于WINDOWS的默认编码格式为GBK,命令行也为GBK编码。
可以变为UTF-8编码。

3.JAVA控制台编译乱码

JDK是国际版的，在编译的时候，如果我们没有用-encoding参数指定我们的JAVA源程序的编码格式，则javac.exe首先获得我们操作系统默认采用的编码格式，也即在编译java程序时，若我们不指定源程序文件的编码格式，JDK首先获得操作系统的file.encoding参数(它保存的就是操作系统默认的编码格式，如WIN2k，它的值为GBK)，然后JDK就把我们的java源程序从file.encoding编码格式转化为JAVA内部默认的UNICODE格式放入内存中。然后，javac把转换后的unicode格式的文件进行编译成.class类文件，此时.class文件是UNICODE编码的，它暂放在内存中，紧接着，JDK将此以UNICODE编码的编译后的class文件保存到我们的操作系统中形成我们见到的.class文件。对我们来说，我们最终获得的.class文件是内容以UNICODE编码格式保存的类文件，它内部包含我们源程序中的中文字符串，只不过此时它己经由file.encoding格式转化为UNICODE格式了。当我们不加设置就编译时，相当于使用了参数：javac -encoding gbk XX.java，当然就会出现不兼容的情况。

解决方法：系统环境变量添加“JAVA_TOOL_OPTIONS”变量，值为“-Dfile.encoding=UTF-8”

posted @ 2020-02-25 14:59 Ysalng 阅读(184) 评论(0) 编辑收藏举报

刷新页面返回顶部

Ysalng

字符编码问题

1. 字符编码

1.1. unicode编码

2. windowsCMD窗口编码格式设置：

3.JAVA控制台编译乱码

公告