java中的乱码问题
分析
-
编码与解码
编码就是将字符转为字节,解码就是就是将字节转换为字符。
-
字节流与字符流
对文件的读写操作都是通过字节流来实现的,即使JAVA中有字符流,但是其底层仍然需要将字符流转换为字节流。
-
乱码问题出现
java中使用最频繁的是字符或者说是字符串,当我们将文本文件读入内存并在控制台显示时,就需要用到解码。如果文件是UTF-8编码,而我们解码时错用成GBK(如果不指定编码,JAVA会采取系统默认编码,windows系统默认是GBK)来解码,那么只能显示乱码。所以在开发过程中同一使用UTF-8编码。
解决方案
-
示例1
将字节流转换为字符流时,我们指定编码格式,前提是要知道文件是什么编码格式,如果文件是utf-8编码格式,而这里是却指定为gb2312编码,那么就会出现乱码,必须要保证两者同一
1 public static String read(String filename) throws Exception { 2 InputStream is = new FileInputStream(filename); 3 BufferedReader in = new BufferedReader(new InputStreamReader(is, 4 "gb2312")); //指定编码格式 5 String s; 6 StringBuilder sb = new StringBuilder(); 7 while ((s = in.readLine()) != null) { 8 sb.append(s + "\n"); 9 } 10 in.close(); 11 return sb.toString(); 12 }
-
示例2
直接通过字节流读入,使用String转换为字符时,指定编码。
1 package com.dy.xidian; 2 3 import java.io.FileInputStream; 4 import java.io.InputStream; 5 6 class BufferedInputFile { 7 public static String read(String filename) throws Exception { 8 @SuppressWarnings("resource") 9 InputStream is = new FileInputStream(filename); 10 11 byte[] b = new byte[1024]; 12 is.read(b); 13 return new String(b, "gb2312"); 14 } 15 } 16 17 public class MemoryInput { 18 public static void main(String[] args) throws Exception { 19 String filename = "E:/html/gb2312.php"; 20 String s = BufferedInputFile.read(filename); 21 System.out.println(s); 22 } 23 }
陷阱
I/O操作中有个FileReader类,这个类隐藏了字节流转为字符流的细节,我们可以这样使用。 BufferedReader in = new BufferedReader(new FileReader(filename)); 这样,我们直接得到就是字符流了。但我们发现,我们并没有去设置编码,这是因为FileReader中采用了默认编码方式。这就变得很危险了,如果其默认的编码格式和我们文件的编码不同,那么读出来的数据一定是乱码。所以我们最好采用示例中的方式来进行流的转换。