Java web项目的字符集问题
如果在Windows系统下使用eclipse开发Java应用,那么开始的时候我们一般不会考虑编码问题,但是随着不断学习,接触到前端、服务端、数据接口、数据库等更多的组件时,编码问题就逐渐暴露出来了,我们会在程序内部对编码进行转换,但是好像有时候好用有时候不好用,下面就具体解决一下这个问题
事实上所有的开发环境都是运行在操作系统上的,所以操作系统使用的默认字符集和我们开发的编码问题都有着很大的关系,但是一般是由于软件设置的问题,我们一般不会考虑操作系统的影响,大部分时候通过上层设置是可以覆盖的,但是我们必须知道操作系统作为最底层决定了应用软件的运行状态
编码的设置是有优先级的,这个应该不难发现,离应用程序越近的组件影响越大,在我们开发过程中大致优先级由低到高的顺序应该是:
操作系统默认字符集->项目环境字符集->服务器设置字符集->文件本身指定或者使用的字符集
就好比数据库一样:数据库系统的字符集->数据库字符集->数据表字符集->每一个字段的字符集这样的关系
当优先级高的字符集没有设置时,默认会使用优先级较低的字符集,无论如何操作系统总会有一个默认的字符集,当其他字符集都没设置时,那么就会使用操作系统默认的字符集,所以开发项目的时候务必要设置除操作系统之上的每一层的字符集保持一致,为了通用性推荐使用utf-8编码
在Windows系统上开发常见的一个问题就是编码问题,而Linux上这个问题却不常见,因为Windows简体中文操作系统默认编码是GBK编码或者ANSI的字符集,ANSI字符集则是随不同版本的操作系统而变化,并且不同ANSI之间也是不能通用的,就连记事本另存为utf-8编码的时候也掺杂着BOM头,所以使用Windows操作系统开发时会出现各种问题,Linux一般采用的是Unicode通用的字符集,所以通用性较好,一般不会出问题
幸好,我们没必要担心操作系统的编码问题,所有的开发项目中,我们都让应用编码覆盖操作系统的编码,这样的话,能在应用程序的层面保证编码的正确性,乱码问题也就解决了,下面大体看一下eclipse的编码设置:
在Windows上运行eclipse默认的项目编码是Windows操作系统的编码也就是GBK编码,文件编码比如xml和jsp编码默认是ISO-8859-1,西欧字符集只支持英文输入,当我们保存中文时也会提示我们是不是要保存为UTF-8,点击确定后也会保存成utf-8,下面我们自己来设置项目和文件的编码
首先,单击菜单栏"Window"选择"Preferences"
然后在左侧选择General->Workspace,右侧会看到Text file encoding选项,这里默认是Default:GBK编码,我们选中Other 选择UTF-8编码
然后,单击"OK"按钮,完成设置,现在我们就设置好了工作空间的编码,就是我们以后的开发环境下所有文件,如果没有指定,那么都将统一是utf-8编码的,这就是符合上面的优先级的原则
当然我们还可以对项目,目录,单个文件的编码进行设置,比如我们在项目管理器中对需要设置的对象上面右击,选择"Properties"
然后左侧默认是Resource,右侧我们看到Text file encoding下面选中的是Inherited from container (UTF-8),意思是默认继承自容器编码,因为上一步我们设置工作空间为UTF-8编码,所以这里如果我们不指定编码那么将会继承容器编码
好的,那么同理我们可以根据优先级的原则,指定目录编码,包编码,每一个文件编码,当然推荐全部继承于工作空间编码,并设置为utf-8的编码,这样所有的文件保存在硬盘上都是纯utf-8编码,这样就设置好了java web的字符集
通常我们在开发中,指定工作空间编码和所有文件编码都统一后,数据库,数据表,连接数据库的指定编码都要全部保持统一,个别需要转换的地方单独转换即可,另外页面声明的编码也要全部统一,这样的话浏览器能应用程序都可以正确的识别并解析,
服务器编码一般我们都会注释掉,就是说全部以文件本身传递的编码为默认编码,比如Nginx、Apache一般都是注释的当然如果要设置也必须设置为统一的,这样服务器才能正常运行应用程序
最后是程序运行的编码,这个一般也是注释的,比如java是服务器交给jre环境去运行,php是服务器交给php模块去执行,那么这些编码如果设置也必须在配置文件中统一,另外对于java编译的过程,eclipse会根据项目设置编码去编译,但是如果使用cmd命令编译的话会出现无法映射的情况,这就是命令行默认使用操作系统编码GBK来进行编译,所以会报错,这个时候我们执行编译的命令时应该给编译器指定编码:
比如:javac -encoding UTF-8 xxx.java这样编译问题就解决了
最后,我们只要对项目整体每个层次的字符集保持一致,都弄清楚,从本质上分析问题,那么编码问题就可以彻底解决了