用java程序复制UTF-8文件后开头出现?号

原始文件内容是这样的:

1000|1.0.0
313|20140814|2
银行流水号|银行交易时间|交易日期|银行虚拟账号|银行账号|银行账号类型|姓名|性别|证件类型|证件号码|证件有效期限|电话|邮箱|省|

市|区|详细地址|客户风险等级|第三方产品代码
31301201408140000002802313000000|20140814101832|20140814|00000000002014081200000000000355|6216920000065381|01|000|0|00|

371321198812266128|20150202|15811111111|abc@gmail.com||11|||8|000888

我们将其另存为UTF-8格式,并用如下java代码读取文件

package com.szkingdom.leejun;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.util.Arrays;

public class FileBomTest {
	public static void main(String[] args) throws IOException {
		File file = new File("F:\\haha.txt");
		FileInputStream fileInputStream=new FileInputStream(file);
		byte[] b=new byte[1024];
		byte[] B=new byte[0];
		int read =-1; 
		while ((read=fileInputStream.read(b))>-1) {
			int i=B.length;
			B=Arrays.copyOf(B, B.length+read);
			for(int j=0;j<read;j++){
				B[i+j]=b[j];
			}
		}
		
		System.out.println(new String(B,"UTF-8"));
	}
}


这时候控制台上显示是这样的:

?1000|1.0.0
313|20140814|2
银行流水号|银行交易时间|交易日期|银行虚拟账号|银行账号|银行账号类型|姓名|性别|证件类型|证件号码|证件有效期限|电话|邮箱|省|市|区|详细地址|客户风险等级|第三方产品代码
31301201408140000002802313000000|20140814101832|20140814|00000000002014081200000000000355|6216920000065381|01|000|0|00|371321198812266128|20150202|15811111111|abc@gmail.com||11|||8|000888

在最前面多了一个?号这是为什么。原因其实很简单,当我们再windows下另存为时windows给UTF-8添加了BOM头。导致了读取异常的现象。我们用16进制打开文件可以看到:EF BB BF 这几个前缀。既然知道出现?号的原理了,那么我们只需要判断是否有该前缀,若有则跳过相应的字符就行了。或者可以用外部工具类读取。


posted @ 2014-08-23 10:15  leejuen  阅读(223)  评论(0编辑  收藏  举报