如何判断一个文本文件的编码
检测策略
- 如果2个字节是0xFF 0xFE,则以Unicode(LE)的方式读取
- 如果2个字节是0xFE 0xFF,则以Unicode BE的方式读取
- 如果前2个字节是0xEF 0xBB,那么判断第3个字节是不是0xBF,如果是的话就以UTF-8的方式进行读取。
- 判断是否符合UTF-8的编码规范,如果符合就以UTF-8的方式进行读取
- 如果以上都不是,则以ANSI的方式进行读取。
代码实现
首先,首先一个enum class作为检测的返回值
enum class Encode { ANSI = 1, UNICODE_LE, UNICODE_BE, UTF8, UTF8_NOBOM };
然后我们可以根据上面总结的规律进行判断。
Encode DetectEncode(const PBYTE pBuffer, long length)
{
if (pBuffer[0] == 0xFF && pBuffer[1] == 0xFE)
{
return Encode::UNICODE_LE;
}
else if (pBuffer[0] == 0xFE && pBuffer[1] == 0xFF)
{
return Encode::UNICODE_BE;
}
else if (pBuffer[0] == 0xEF && pBuffer[1] == 0xBB && pBuffer[2] == 0xBF)
{
return Encode::UTF8;
}
else if (CheckUnicodeWithoutBOM(pBuffer, length))
{
return Encode::UTF8_NOBOM;
}
else
{
return Encode::ANSI;
}
}
下面附上如何检测UTF-8 without BOM的代码实现。
BOOL CheckUnicodeWithoutBOM(const PBYTE pText, long length)
{
int i;
DWORD nBytes = 0;
UCHAR chr;
BOOL bAllAscii = TRUE;
for (i = 0; i < length; i++)
{
chr = *(pText + i);
if ((chr & 0x80) != 0)
bAllAscii = FALSE;
if (nBytes == 0)
{
if (chr >= 0x80)
{
if (chr >= 0xFC && chr <= 0xFD)
nBytes = 6;
else if (chr >= 0xF8)
nBytes = 5;
else if (chr >= 0xF0)
nBytes = 4;
else if (chr >= 0xE0)
nBytes = 3;
else if (chr >= 0xC0)
nBytes = 2;
else
{
return FALSE;
}
nBytes--;
}
}
else
{
if ((chr & 0xC0) != 0x80)
{
return FALSE;
}
nBytes--;
}
}
if (nBytes > 0)
{
return FALSE;
}
if (bAllAscii)
{
return FALSE;
}
return TRUE;
}
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?