UTF-8文件头的问题(转)
摘要:
在读写有关UTF-8格式的文件时,特别是如UTF-8格式的txt文件时,经常会遇到由于UTF-8的文件头造成的乱码问题。最近又碰到了,写下来记录一下处理方式吧,有更好的方法,欢迎各位留言交流。所有采用UTF-8格式编码的文件的文件头三个字节用16进制表示是EFBBBF,因此在读取UTF-8格式文件的时候,需要去掉这个文件头。而当你并不了解读取的文件是GBK格式还是UTF-8格式时,你就不得不通过这个文件头来判断了。具体可以按照如下方式判断:1、从文件流中读取前三个字节到一个byte[3]数组中;2、通过Integer.toHexString(byte[0] & 0xFF),将byte[ 阅读全文
posted @ 2011-07-27 14:54 奋斗者 阅读(14561) 评论(2) 推荐(0) 编辑