unicode
unicode 统一的一种编码,它包括ucs-2,ucs-4
ucs 通用字符集
ucs-2 两个字节编码,是常见的unicode编码
ucs-4 四个字节编码
window 文本的unicode是little endian 低位开头
对于英文来说,直接用unicode来储存是非常浪费空间和不利于传输,所以就出现了UTF-8,UTF-8是unicode和一种实现方式,只是它的储存方式
有所不同,它每个字节都有个头标记,如0XXX XXXX开头就表示一个字节为一个unicode编码,110X XXXX 10XX XXXX两个字节为一个unicode编码,
UTF-16多出的部分是ucs-2还是ucs-4??
16进制编码范围 UTF-16表示方法(二进制) 10进制码范围 字节数量
U+0000---U+FFFF xxxxxxxx xxxxxxxx 0-65535 2
U+10000---U+10FFFF 110110yyyyyyyyyy 1 10111xxxxxxxxxx 65536-1114111 4
UTF-16可看成是UCS-2的父集。在没有辅助平面字符(surrogate code points)前,UTF-16与UCS-2所指的是同一的意思。但当引入辅助平面字符后,就称为UTF-16了。现在若有软件声称自己支持UCS-2编码,那其实是暗指它不能支持在UTF-16中超过2bytes的字集。对于小于0x10000的UCS码,UTF-16编码就等于UCS码。
但UTF-16却无法兼容于ASCII编码。
UTF-16是16个字节的,那UTF-16是不是不便于传送了???
little endian低位开头
big endian高位开头
其它就参考 http://zh.wikipedia.org/zh-cn/UTF-16