全角与半角的转化

作者：@houkai
本文为作者原创，转载请注明出处：https://www.cnblogs.com/houkai/archive/2013/06/09/3129506.html

1.全角与半角的区别

汉字的特点使我们碰到了两个基本且又非常重要的概念，即全角与半角。形象的说，在使用英文输入法时，电脑屏幕上，一个英文字符(如a)所占的位置，人们称其为半角，而一个汉字所占的位置则等于两个英文字符，故称其为全角。
英文输入法下，无论是输入字母、符号还是数字，始终都只占一个英文字符的位置，即半角。但在中文输入法下，则会有全角半角两种选择，对中文字符来说，这两种选择对其没有影响，它始终都要占两个英文字符的位置，但对此状态下输入的符号、数字以及英文字母来说，就显得很重要，如以下所示：
china
ｃｈｉｎａ
前者输入选择的是半角，后者为全角。在选择全角后，即便是字母、符号、数字都无一例外地要被当成汉字进行处理，视觉上看，由于它们占两个英文字符的位置，显得别扭了许多。

2.全角与半角的转化

Ansi多字节字体集在中文(汉字、中文符号)下即GBK编码，英文(英文字母、英文符号)下为ASCII码，一般来说，Ansi编码的文本便于程序的处理。对文本中字符串操作前，建议统一使用全角或半角。比如全角的空格“ ”（对应的GBK编码A1A1），而半角的空格“ ”（对应的ASCII编码为\x20），如果文本中混合使用，要查找空格位置或按空格分割段落时，显然两种空格会带来不必要的麻烦。文本中的内容可分为以下四类:

分类	解释	转化方法
汉字以及中文字符	如：“中国”、“好”等汉字和“……”“——”等中文中的特有符号，这些只能是全角，不存在转化的问题	NULL
英文字母与英文符号	指ASCII表中33-126对应的字符，如：!*+012abc{}等。它们有全角和半角两种形式，例如上述的china与ｃｈｉｎａ	半角转全角：前添加字节A3，原字节最高位置1 全角转半角：丢弃第一个字节，第二个字节最高位置0
空格	ASCII码的空格为\x20，GBK编码的空格为A1A1	和英文字母和英文符号不同，这个要特殊对待
控制字符	指ASCII表中0-31的字符，用于控制文件格式。如回车换行便对应\x0D\x0A（CR LF），这部分只能是半角，不需转化	NULL

由此，全角转半角的程序如下

/*
 *作者：侯凯
 *说明：全角与半角相互转化
 *日期：2013-6-9
 */
#include <iostream>
#include <fstream>
#include <string>
using std::string;
using namespace std;

const char sbc_high = -93; //全角字符的第一个字节为A3
const char sbc_space = -95; //全角空格为A1A1

//全角转半角
string SBC2DBC(const string &sbc)
{
    string dbc = "";
    int len = sbc.length();
    for (int i=0; i<len; ++i)
    {
        if (sbc[i] > 0)    //已经是单字节字符，或者是控制字符
        {
            dbc.append(1, sbc[i]);
        }
        else
        {
            if (sbc[i] == sbc_high)    //全角的英文字母或全角英文符号，如！(A3A1)
            {
                dbc.append(1, sbc[i+1]&0x7f);
            }
            else if (sbc[i]==sbc_space && sbc[i+1]==sbc_space)    //单独处理空格
            {
                dbc.append(1, ' ');
            }
            else //针对汉字以及～……等中文符号
            {
                dbc += sbc.substr(i, 2);
            }
            ++i;
        }
    }
    return dbc;
}

半角转全角的程序如下

//半角转全角
string DBC2SBC(const string &dbc)

{
    string sbc = "";
    int len = dbc.length();
    for (int i=0; i<len; ++i)
    {
        if (dbc[i] < 0)    //已经是双字节字符，或者是汉字及中文符号
        {
            sbc += dbc.substr(i, 2);
            ++i;
        }
        else if (dbc[i] == ' ')    //单独处理空格
        {
            sbc += "　";
        }
        else
        {
            if (dbc[i]>=33 && dbc[i]<=126)//半角的英文字母或半角英文符号
            {
                sbc.append(1, sbc_high);
                sbc.append(1, dbc[i]|0x80);
            }
            else
            {
                sbc.append(1, dbc[i]);//控制字符
            }
        }
    }
    return sbc;
}

处理一个文本转化的示例程序如下

//处理txt文本的简单例子
void ProcessFile(const char* filename)  
{  
    ifstream infile;
    string strLine = "";
    string strResult = "";  
    infile.open(filename);
    if (infile)  
    {  
        while (!infile.eof())
        {  
            getline(infile,strLine);  
            strResult += strLine+"\n";
        }  
    }
    infile.close();

    strResult = SBC2DBC (strResult);//转化

    ofstream outfile;  
    outfile.open (filename);
    outfile.write (strResult.c_str(), strResult.length());  
    outfile.flush();  
    outfile.close();
}

3.unicode编码下的转化

在实际的工作中，可能碰到unicode编码的文本。在这种情况下，半角与全角的转化过程与上述方法一致，只需要处理“英文字母与英文符号”和“空格”即可。当然，unicode编码下，所有字符都用两个字节表示，如半角的空格为\x0020，全角的空格为\x3000，(unicode编码详见：http://www.cnblogs.com/houkai/archive/2013/06/04/3116955.html)，这样避免了字符的添加或丢弃，处理更为简单。如需Unicode编码表，可下载。转化方法：
a.全角空格为12288，半角空格为32
b.其他字符半角(33-126)与全角(65281-65374)的对应关系是：均相差65248
程序实现比较简单，以UTF8转ANSI中的changeTxtEncoding函数为基础，改写后示例如下：

//原函数的功能是实现UTF8编码的szU8字符转unicode，unicode再转Ansi
//这里，在UTF8转unicode后添加了“全角转半角程序”部分
char* changeTxtEncoding(char* szU8)
{  
    int wcsLen = ::MultiByteToWideChar(CP_UTF8, NULL, szU8, -1, NULL, 0);  
    wchar_t* wszString = new wchar_t[wcsLen];
    ::MultiByteToWideChar(CP_UTF8, NULL, szU8, -1, wszString, wcsLen);

    //全角转半角程序
    //wszString是unicode编码
    for (int i=0; i<wcsLen; i++)
    {
        if(wszString[i]==12288) //空格
        {
            wszString[i] = 32;
        }
        if( (wszString[i]>=65281) && (wszString[i]<=65374) )//其他字符
        {
            wszString[i] -= 65248;
        }
    }

    int ansiLen = ::WideCharToMultiByte(CP_ACP, NULL, wszString, -1, NULL, 0, NULL, NULL);  //wcslen(wszString)
    char* szAnsi = new char[ansiLen];  
    ::WideCharToMultiByte(CP_ACP, NULL, wszString, -1, szAnsi, ansiLen, NULL, NULL); 
    delete[] wszString;
    return szAnsi;  
}