关于VC++ 字符集

VC程序的国际化不像JAVA，.NET那样支持的极其自然，各种各样的宏及数据类型，常使程序输出莫名其妙乱码，特别是在使用第三方类库时。

下面就我对VC项目字符集问题的一点心得：

1、std::string

它存储的字符取决于当前系统编码，即ANSI编码。例如，对于中文Windows XP/7 等系统，实际的系统编码为936=GB2312.

因此，std:: string str(“中国”);内存的中的表达即为：D6 D0 B9 FA

此时，不论源文件是什么编码，也不论项目设置中的字符集如何设置，VC++ IDE在读取文件后，自动将读取的字符串转换成ANSI码流存储。这也是为什么上面的字符串输出到控制不会乱码的原因。

2、std:: wstring

wstring的实际含义与项目设置(即编译器决定)有关。wstring表示宽字符串。对于宽字符，即wchar_t，是用2个byte表达一个字符。wstring即wchar_t的字符串。而wchar_t表示的是什么字符，与项目设置的字符集有关系。

当项目设置字符集使用Unicode字符集时，wstring存储Unicode-16字符；
当项目设置字符集使用多字节字符集时，wstring使用ANSI字符集(若要编写跨平台代码，不推荐这么应用)；

wstring wstr1(L"中国");
wstring wstr2(_T("中国"));

上述字符串都是表示字符串【中国】，是完全一样的。当项目字符集时Unicode时，其内存表达都是2D 4E FD 56.

3、Unicode16==>UTF8

出于通用性及兼容性和性能要求，程序往往需要支持UTF-8.因此程序中需要使用Unicode16==>UTF-8编码转换。而大多数成熟的第三方类库，对UTF-8支持的是比较好的。在windows下编程，可以考虑将项目字符集设置为Unicode，OS层API调用使用Unicode API，调用第三方类库时，将Unicode16转换成UTF-8编码后再执行调用。

另外，出于跨平台和性能方面的考虑，对于log操作，尽可能使用英文。

posted on 2011-05-02 21:58 海天一鸥阅读(1134) 评论(0) 编辑收藏举报

刷新页面返回顶部

海鸥航迹

学习之笔记，好文之收集。

导航

公告

关于VC++ 字符集