Unicode

背景

以前一直听说过Unicode，认识比较粗浅，我们的汉字是Unicode编码的，但是具体的原因及其用途不是很清楚。以前在写C#程序的时候也没怎么注意该问题对程序有什么影响。最近在做C/C++的项目时，看见项目中许多诸如_T(“hello”);的代码，对_T()不是很了解。因为在自己以前学习中，不管是C 还是C++里好像都没有这样代码。

ASCII与Unicode

ASCII内容

控制字符：回车键、退格、换行键等。

可显示字符：英文大小写字符、阿拉伯数字和西文符号

ASCII位数

7位（bits）表示一个字符，共128字符，字符值从0到127，其中32到127是可打印字符。扩展字符集

7位编码的字符集只能支持128个字符，为了表示更多的欧洲常用字符对ASCII进行了扩展，ASCII扩展字符集使用8位（bits）表示一个字符，共256字符。

UNICODE字符集
作用：为世界650种语言进行统一编码。
位数：UNICODE字符集有多个编码方式，分别是UTF-8，UTF-16和UTF-32。

windows编程中的字符

普通字符char为C基本类型，以8位表示

宽字符wchar_t 在WCHAR.h中定义为 typedef unsigned short wchar_t ; 无符号短整型 16位表示

 1 int _tmain(int argc, _TCHAR* argv[])
 2 {
 3 
 4     char s1[]="hello!";
 5     int size1=sizeof(s1);    //7
 6     int length1=strlen(s1);    //6
 7  
 8     wchar_t ws[]=L"Hello!";
 9     int size2=sizeof(ws);    //14
10     //    int l2=strlen(ws);//错误    1    error C2664: “strlen”: 不能将参数 1 从“wchar_t [7]”转换为“const char *”    e:\xx\xx\xx\test.cpp    18
11 
12     int length2=wcslen(ws);    //6
13 
14     return 0;
15 }

WINNT.H 定义了新的资料型态，称作CHAR 和WCHAR

typedef char CHAR ;
typedef wchar_t WCHAR ;

关于普通8位字符类型的其他新类型定义

typedef CHAR * PCHAR, * LPCH, * PCH, * NPSTR, * LPSTR, * PSTR ;
typedef CONST CHAR * LPCCH, * PCCH, * LPCSTR, * PCSTR ;

关于16位宽字符类型的其他新类型定义

typedef WCHAR * PWCHAR, * LPWCH, * PWCH, * NWPSTR, * LPWSTR, * PWSTR ;
typedef CONST WCHAR * LPCWCH, * PCWCH, * LPCWSTR, * PCWSTR ;

至此，我们有了资料型态CHAR（一个8 位的char）和WCHAR（一个16 位的wchar_t），以及指向CHAR 和WCHAR的指标。
与TCHAR.H 一样，WINNT.H将TCHAR定义为一般的字元类型。

#ifdef UNICODE
typedef WCHAR TCHAR, * PTCHAR ;
typedef LPWSTR LPTCH, PTCH, PTSTR, LPTSTR ;
typedef LPCWSTR LPCTSTR ;
#else
typedef char TCHAR, * PTCHAR ;
typedef LPSTR LPTCH, PTCH, PTSTR, LPTSTR ;
typedef LPCSTR LPCTSTR ;
#endif

这里为什么要将这么多的类型定义列举出来呢，主要是自己刚开始接触代码，在代码中看见各种各样的类型，搞不清楚究竟是什么类型，我一直疑惑同一种类型为什么要定义出来这么多相同的新类型呢，增加代码理解难度。

函数

在继续往下看，发现在windows编程中所有函数中若参数中包含字符、字符串的函数都可以分上三种方式处理，如：

CHAR	WCHAR	TCHAR
strlen	wcslen	_tcslen
strcmp	wcscmp	_tcscmp
MessageBoxA	MessageBoxW	MessageBox
cout	wcout	?
c...	w...	_t...

可以看出在windows基本上所有的字符/字符串处理函数，都提供了三种方式实现，相互对应。c.../w.../_t...

相互转换

    WINBASEAPI
        int
        WINAPI
        MultiByteToWideChar(
        __in UINT     CodePage,
        __in DWORD    dwFlags,
        __in_bcount(cbMultiByte) LPCSTR   lpMultiByteStr,
        __in int      cbMultiByte,
        __out_ecount_opt(cchWideChar) __transfer(lpMultiByteStr) LPWSTR  lpWideCharStr,
        __in int      cchWideChar);

    WINBASEAPI
        int
        WINAPI
        WideCharToMultiByte(
        __in UINT     CodePage,    //指定执行转换的代码页
        __in DWORD    dwFlags,     //允许你进行额外的控制，它会影响使用了读音符号（比如重音）的字符
        __in_ecount(cchWideChar) LPCWSTR  lpWideCharStr,     //指定要转换为宽字节字符串的缓冲区
        __in int      cchWideChar,    //指定由参数lpWideCharStr指向的缓冲区的字符个数
        __out_bcount_opt(cbMultiByte) __transfer(lpWideCharStr) LPSTR   lpMultiByteStr,    //指向接收被转换字符串的缓冲区
        __in int      cbMultiByte,    //指定由参数lpMultiByteStr指向的缓冲区最大值
        __in_opt LPCSTR   lpDefaultChar,    //遇到一个不能转换的宽字符，函数便会使用pDefaultChar参数指向的字符
        __out_opt LPBOOL  lpUsedDefaultChar //至少有一个字符不能转换为其多字节形式，函数就会把这个变量设为TRUE

View Code

参考：《Windows程序设计（第五版）》

　　　　http://baike.baidu.com/view/2083430.htm

　　　　http://baike.baidu.com/view/51987.htm

posted @ 2013-06-26 10:46 haox 阅读(753) 评论(0) 收藏举报

刷新页面返回顶部

haox

Unicode

公告