随笔 - 89  文章 - 1  评论 - 261  阅读 - 16万

如何判断文本文件的编码方式?

文本文件通常通过其前2个字节来标识自身的编码方式,但UTF-32编码则通过前4个字节来标识自己的编码方式。下面是一些编码格式的标识:

编码方式 前几个字节值
ANSI 无格式定义
Unicode FF FE
Unicode big endian FE FF
UTF-8 EF BB
UTF-16/UCS-2, little endian FE FF
UTF-16/UCS-2, big endian FF FE
UTF-32/UCS-4, little endian FF FE 00 00
UTF-32/UCS-4, big-endian 00 00 FE FF

这样一来,我们写代码的时候只需要读取文件的前2个字节~4个字节,即可知道其编码方式。但在.Net中,还有另一种更简单的办法可以知道文本文件的编码方式,及使用以下的代码:

public Encoding GetEncoding(string file)
{
    var r = new StreamReader(file, true); //这里的true表示由程序自动判断文件编码
    return r.CurrentEncoding; //返回编码
}

posted on   阿齐  阅读(2752)  评论(3编辑  收藏  举报
编辑推荐:
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
< 2010年11月 >
31 1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 1 2 3 4
5 6 7 8 9 10 11

点击右上角即可分享
微信分享提示