在Windows中执行UTF-8

介绍这是(又是一篇)关于如何在一个仍然鼓励UTF-16编码的平台上处理UTF-8编码的文章。为此，我也提供了一个小型图书馆。代码工作，它是干净的，容易理解和小。这是UTF-8 Everywhere宣言中提倡的解决方案的实现。我强烈建议您将整个文档阅读一遍，以便给商标灌输思想。背景让我重述一下上述宣言中的一些要点: UTF-16(被称为Unicode、widechar或UCS-2)早在90年代初就被引入了，当时人们认为它的65000个字符对于所有字符来说已经足够了，除了特殊情况，UTF-16并没有比UTF-8更有效或更容易使用。事实上，在很多情况下，情况正好相反。在UTF-16中，字符也有可变宽度编码(两个或四个字节)，计数字符和UTF-8中一样困难。如果你想在Windows中使用UTF-8编码(你应该这么做)，并且你不想变得疯狂或者你的程序意外崩溃，你必须遵循以下规则: 在编译程序时定义_UNICODE(或在Visual Studio中选择“使用Unicode字符集”)。只在API函数调用的参数中使用wchar_t或std::wstring。在其他地方使用char或std::string。在UTF-8和UTF-16之间使用加宽()和窄()函数。这个包中提供的函数将使您的工作更加轻松。调用库函数所有函数都存在于utf8名称空间中，我建议您不要为这个名称空间放置using指令。这是因为许多/大多数函数具有与传统C函数相同的名称。例如，如果你有一个函数调用:

mkdir (folder_name);

如果你想开始使用UTF-8字符，你只需要把它改为:

utf8::mkdir (folder_name);

将名称空间作为函数的前缀可以使您明显地看到所使用的函数。基本的转换功能遵循同样的原则，基本的转换函数是narrow()(从UTF-16转换为UTF-8)和broaden()(反向转换)。他们的签名是:

std::string narrow (const wchar_t* s);
std::string narrow (const std::wstring& s);

std::wstring widen (const char* s);
std::wstring widen (const std::string& s);

此外，还有两个转换UTF-32的函数:

std::string narrow (const std::u32string& s);
std::u32string runes (const std::string& s);

在内部，转换是使用WideCharToMultiByte和MultiByteToWideChar函数完成的。还有一些函数用于计数UTF-8字符串中的字符数(length())，检查字符串是否有效(valid())，以及在字符串中推进指针/迭代器(next())。包装器几乎所有其他函数都是传统C/ c++函数或结构的包装器: 文件操作:fopen, chmod, access, rename, remove streams: ifstream, ofstream, fstream路径操作函数:splitpath和makepath环境访问函数putenv和getenv字符分类函数是…(isalnum, isdigit, isalpha等) 所有这些函数的参数都模仿标准参数。但是，对于其中一些，如access、rename等，返回类型为bool, true表示成功，false表示失败。这与标准的C函数相反，如果成功，则返回0。购者自慎! 返回值对于返回字符串的API函数，您需要设置一个wchar_t缓冲区来接收值，使用这个窄函数将其转换为UTF-8，并最终释放缓冲区。下面是一个示例。代码检索临时文件的名称:

wstring wpath (_MAX_PATH, L'\0');
wstring wfname (_MAX_PATH, L'\0');

GetTempPath (wpath.size (), const_cast<wchar_t*>(wpath.data ()));
GetTempFileName (wpath.c_str(), L"ABC", 1, const_cast<wchar_t*>(wfname.data ()));

string result = narrow(wfname);

这似乎有点太麻烦和容易出错，所以我做了一个小对象，以保存返回值。它有运算符将其转换为wchar_t缓冲区，然后转换为UTF-8字符串。由于没有更好的名称，我称它为缓冲区。使用这个对象，相同的代码片段变成:

utf8::buffer path (_MAX_PATH);
utf8::buffer fname (_MAX_PATH);

GetTempPath (path.size (), path);
GetTempFileName (path, L"ABC", 1, fname);

string result = fname;

在内部，缓冲区对象包含UTF-16字符，但是字符串转换操作符调用utf8::narrow函数将字符串转换为UTF-8。程序参数有两个函数用于访问和转换UTF-16编码的程序参数:get_argv函数返回一个类似argv的指针数组，指向命令行参数:

  int argc;
 char **argv = utf8::get_argv (&argc);

第二个直接提供了字符串的向量:

std::vector<std::string> argv = utf8::argv ();

当使用第一个函数时，必须调用utf8::free_argv函数来释放为argv数组分配的内存。结论我希望这篇文章和包含的代码能够说明在Windows程序中使用UTF-8编码并不会太痛苦。本系列的下一章是: “降低还是不降低”说明了如何解决问题。在UTF-8“INI文件”中的案例转换问题显示了在Windows INI文件中使用UTF-8的Windows API的实现历史 2020年8月2日-本系列其他文章的链接，2019年11月22日代码更新-初始版本本文转载于：http://www.diyabc.com/frontweb/news166.html

posted @ 2020-08-04 01:15 Dincat 阅读(788) 评论(0) 收藏举报

刷新页面返回顶部

Dincat

在Windows中执行UTF-8

公告