记录MFC在UNICODE字符集下读取中ANSI英文混合文件英文字符为单数汉字出现乱码问题

　　惭愧，做了3年多 C++ 了，虽说半路出家，之前也做过 Linux 一年多，但是 MFC 也做了一年多了，由于一直维护公司的老项目，也没有做过新东西。

　　最近心血来潮，在网上找了些学习视频，复习下 MFC 控件的使用，熟悉下 MFC 的 API，毕竟是吃饭的家伙，废话不多说，来干货。

　　最近在仿写一个记事本软件，初具基本功能，但遇到了一个比较蹩脚的问题，MFC 在 UNICODE 字符集下在读取 ANSI 编码的文本文件时，全中文没问题，全英文也没问题，但是中英文混合时，当英文个数为奇数个时，英文后面的汉字就会编程乱码。

　　原因是我想的太简单了，觉得读取 ANSI 编码的文本文件，就是读取多字节字符串，也就有了如下代码：

　　代码中的形参只是定义了一个 CFile 对象并以只读方式打开，个人习惯，如果解释就要解释的明明白白，所以给这两句代码也复制过来了。

　　CFile file;
　　file.Open(szFile, CFile::modeRead);

 1 void CNotepadDlg::ReadAnsi(CFile& file)
 2 {
 3     file.Seek(0, CFile::begin);
 4     char buff[1024];
 5     UINT nRet = 0;
 6     CString str;
 7 
 8     while (nRet = file.Read(buff, sizeof(buff - 1)))
 9     {
10         buff[nRet] = '\0';
11         str += buff;
12     }
13 
14     SetDlgItemText(IDC_EDIT_TEXT, str);
15 
16 }

　　这只是按照单字节读取，当然显示也就存在问题。

　　这是用微软记事本打开的 ANSI 编码的文本文档。

　　这是我仿写记事本打开的文本文档

　　结果很明显，不对。

　　网上也找了很多处理办法，A2T，bstr_t，_tsetlocale(LC_ALL, _T("chs")); 这几个方法都试了，可能我水平不济，确实没弄明白，最后还是用最原始的 MultiByteToWideChar() 解决了问题。当然，代码还存在许多问题，待优化。

 1 void CMFC194Dlg::ReadAnsi(CFile& file)
 2 {
 3     file.Seek(0, CFile::begin);
 4     // TODO: 在此处添加实现代码.
 5     char buff[1024];
 6     UINT nRet = 0;
 7     CString str;
 8     
 9     LONGLONG nLen = file.GetLength();
10     char* p = new char[nLen + 1];
11     nLen = file.Read(p, nLen);
12     p[nLen] = '\0';
13     TCHAR* pText = new TCHAR[nLen + 2];
14     memset(pText,0 , nLen + 2);
15 
16     nLen = MultiByteToWideChar(CP_ACP, NULL, p, -1, pText, nLen + 2);
17 
18     SetDlgItemText(IDC_EDIT_TEXT, pText);
19 
20     delete[]p;
21     delete[]pText;
22 }

　　读取结果：

　　处理这个问题的灵魂是这两句代码：

　　TCHAR* pText = new TCHAR[nLen + 2];

　　memset(pText,0 , nLen + 2);

　　因为 ANSI 编码中英文字母占一个字节，中文汉字占两个字节，所以定义 pText 长度不能是多字节长度 / 2 + 2，这会导致空间不足，使 MultiByteToWideChar() 返回 0，用 GetLastError() 可知返回122。

posted @ 2020-01-14 23:47 二是一种不三不亖的范阅读(982) 评论(0) 编辑收藏举报

刷新页面返回顶部

记录MFC在UNICODE字符集下读取中ANSI英文混合文件英文字符为单数汉字出现乱码问题

公告