识别文本文件编码

做个了文件分割软件,但是在分割文本小说时,发现分割出来的子文件并没有使用源文件的编码,

却是使用的UTF-8,在editplus中看倒是也没有什么,但是在MOBIPORKET READER中打开却是乱码,

因此,决定找到问题,修改一下,经过搜索和查看MSDN,

总结如下,

使用

Code

构造函数使用StreamReader就可以了,这样在StreamReader的实例中属性CurrentEncoding就包含了,文件的原始编码信息

扩展一下:

搜索的时候发现文本文件的开头几个字节就可以用来文件使用的编码情况,在C#中使用下面:

Code

utf-16( 1200 )	FF FE
unicodeFFFE( 1201 )	FE FF
utf-32( 12000 )	FF FE 00 00
utf-32BE( 12001 )	00 00 FE FF
utf-8( 65001 )	EF BB BF

得到的记过如上表,很多的编码没有对应的Preamble字节数组...

posted on 2009-03-04 13:39 josephshi 阅读(501) 评论(0) 编辑收藏举报

刷新页面返回顶部