被各种乱码整得焦头烂额，查了些资料，理了理，挺有意思的。

首先是ASCII码，美国搞出来时用32至127表示可打印字符，0至31为控制字符，如0x0A （LF换行),0x0D（CR回车)。然而随着计算机普及，非英语地区开始想使用自己的语言，于是8位ASCII码的最高位也被用上了，而亚洲地区出现使用两个字节表示一个字符的编码，如天朝的GB-2312，台湾的Big5，Japs的JIS等等，造成了很混乱的局面，ANSI于是制定了个标准：对小于128的编码和ASCII值一样，而如果使用双字节编码则要求每个字节最高位为1。也就是说ANSI码并不是一种编码，它只是提供了一种规范，在大陆ANSI码，也就是GB-2312发展到今天的GBK，我们中文windows系统用记事本存储时默认的是采用ANSI，存储的值也就是GBK值，如“汉”的值为:0xBA 0xBA。

然而并没有解决不同字符集的通用问题，Unicode就诞生了，在Unicode普及之前，MS采用了Code Pages的机制来实现不同ANSI码到Unicode的映射。两个字节表示范围内的为UCS-2,四个字节的为UCS-4，UCS-4的最高字节的最高位为0，然后根据第一个字节分成128个group，根据第二个字节把每个组分成256个plane...（BMP:把0组0平面前面的两个字节去掉就得到UCS-2字符）应当注意的是，Unicode并不提供具体的编码方法，也就是说字符在内存中存储的并不一定是Unicode值。Unicode的编码方法有UTF-8 UTF-16 UTF-32...(UTF:UCS Transformation Format)，具体编码如下：

UTF-8：

UCS-2编码(16进制) UTF-8 字节流(二进制) 模板

0000 - 007F 0xxxxxxx

0080 - 07FF 110xxxxx 10xxxxxx

0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx

例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间，所以肯定要用3字节模板了：1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是：0110 110001 001001，用这个比特流依次代替模板中的x，得到：11100110 10110001 10001001，即E6 B1 89

这里有段小插曲，就是记事本新建txt文件，输入“联通”保存退出，再打开出现乱码的问题，就是由于记事本在默认情况下用ANSI码也就是GBK存储，“联通”的GBK码为C1AA

CDAB，二进为11000001 10101010 11001101 10101011正好符合UTF-8的第二个模板，一般情况下不同编码都有文件头，但Unicode刚开始时很多程序都不写文件头，记事本便对文件编码方式进行猜测，就以UTF-8解读，按照UTF-8模板2的逆运算，得到006a 0368对应的Unicode为j。很明显只要新建的txt格式为0xAA,0xBB,满足0≤AA≤DF 80≤BB≤BF时，就会出现上述情况。

UTF-16:

UTF-16以16位为单位对UCS进行编码，对小于0x10000的UCS码，编码值等于16位无符号整数，这也许也是人们为什么说Unicode编码和UTF-16编码一样的原因吧，而对于高于0x10000的值稍微麻烦些，不过现在也用不着。

UTF-32:

直接用32位无符号整数表示

到这里我基本了解了，记事本中ANSI,Unicode,UTF-8的出处，然而记事本中还有一个Unicode big endian是哪里来的呢？这就要说，UTF-16与UTF-8的区别了，UTF-8是按字节编码，不存在码序的问题，而UTF-16以16位为单位就存在一个高端存储(big endian）和低端存储的问题(little endian)的问题，Unicode规范推荐先传输个字节顺序标记，UCS中有个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，编码为FEFF,还有一个UCS中不存在的字符FFFE。接收端如果收到FEFF就按高端存储解码，收到FFFE就按低端存储解码。这就是记事本中Unicode和Unicode big endian的区别。下面为“汉”按unicode和Unicode big endian存储的结果：

Unicode： 00000000h:FF FE 49 6C ; 蘒l

Unicode big endian ：00000000h: FE FF 6C 49 ; ?lI

而UTF-8实际上也会在文件开头存储"ZERO WIDTH NO-BREAK SPACE"来标识文件格式，

UTF-8： 00000000h:EF BB BF E6 B1 89 ; 锘挎眽

综上所述，ASCII派生了GB-2312,Big5等等的DBCS，ANSI为此制定了标准，然后Unicode提出了统一的字符集，UTF-8,UTF-16为Unicode的编码方式，其中UTF-16又由于自身的特点和Unicode的值非常像，于是就直接用Unicode指代UTF-16，而用Unicode big endian指代UTF-16大端存储方式。

参考：

http://www.joelonsoftware.com/articles/Unicode.html

http://www.cppblog.com/qiujian5628/archive/2008/01/24/41773.html

问题补充一：

windows默认文件名编码方式ANSI,而Linux默认文件名编码为UTF-8，复制后文件名乱码。

解决翻案：Linux工具 convmv

问题补充二：

vim配置文件~/.vimrc中的配置项fileencodings，fileencoding和encoidng的含义？

encoding:encoding是Vim的内部使用编码，encoding的设置会影响Vim内部的Buffer、消息文字等。在Unix环境下，encoding的默认设置等于locale；Windows环境下会和当前代码页相同。在中文Windows环境下encoding的默认设置是cp936（GBK）

fileencodings:Vim在打开文件时会根据fileencodings选项来识别文件编码，fileencodings可以同时设置多个编码，Vim会根据设置的顺序来猜测所打开文件的编码。

fileencoding:Vim在保存新建文件时会根据fileencoding的设置编码来保存。如果是打开已有文件，Vim会根据打开文件时所识别的编码来保存，除非在保存时重新设置fileencoding。

Vim内部使用iconv库进行编码转换，如果这几个选项所设置的编码不一致，Vim就有可能会转换编码。打开已有文件时会从文件编码转换到 encoding所设置的编码；保存文件时会从encoding设置的编码转换到fileencoding对应的编码。经常会看到Vim提示[已转换]，这是表明Vim内部作了编码转换。终端环境下使用Vim，会从termencoding设置的编码转换到encoding设置的编码。
可以用|:help encoding-values|列出Vim支持的所有编码。

问题补充三：

某个整数转UTF-8字符串的小程序

char *utf8_encode(int num)
{
    char *res = (char*)malloc(512000 * sizeof(char));

    int byte[4];
    int count = 0;

    if (num <= 0x7f){
        byte[0] = num | 0x80;
        count = 1;
    }
    else if (num <= 0x7ff)
    {
        byte[0] = (num & 0x3f) | 0x80;
        byte[1] = (num >> 6) | 0xc0;
        count = 2;
    }
    else if (num <= 0xffff){
        byte[0] = (num & 0x3f) | 0x80;
        byte[1] = ((num >> 6) & 0x3f) | 0x80;
        byte[2] = (num >> 12) | 0xe0;
        count = 3;
    }
    else{
        byte[0] = (num & 0x3f) | 0x80;
        byte[1] = ((num >> 6) & 0x3f) | 0x80;
        byte[2] = ((num >> 12) & 0x3f) | 0x80;
        byte[3] = (num >> 18) | 0xf0;
        count = 4;
    }

    for (int i = 0; i < count; i++){

        char byte_str[9];

        _itoa(byte[count - i - 1], byte_str, 2);
        strncpy(res + i * 9, byte_str, 8);

        if (i != count - 1){
            res[i * 9 + 8] = ' ';
        }
    }

    res[count * 9 - 1] = '\0';

    return res;
}

posted on 2014-05-18 23:50 莫扎特的代码阅读(375) 评论(0) 收藏举报

刷新页面返回顶部

参考：

问题补充二：

问题补充三：

公告