如何判断文本文件的编码方式?
文本文件通常通过其前2个字节来标识自身的编码方式,但UTF-32编码则通过前4个字节来标识自己的编码方式。下面是一些编码格式的标识:
编码方式 前几个字节值 ANSI 无格式定义 Unicode FF FE Unicode big endian FE FF UTF-8 EF BB UTF-16/UCS-2, little endian FE FF UTF-16/UCS-2, big endian FF FE UTF-32/UCS-4, little endian FF FE 00 00 UTF-32/UCS-4, big-endian 00 00 FE FF
这样一来,我们写代码的时候只需要读取文件的前2个字节~4个字节,即可知道其编码方式。但在.Net中,还有另一种更简单的办法可以知道文本文件的编码方式,及使用以下的代码:
public Encoding GetEncoding(string file)
{
var r = new StreamReader(file, true); //这里的true表示由程序自动判断文件编码
return r.CurrentEncoding; //返回编码
}
分类:
每日一得
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?