unicode

unicode 统一的一种编码,它包括ucs-2,ucs-4

ucs 通用字符集

ucs-2 两个字节编码,是常见的unicode编码

ucs-4 四个字节编码

window 文本的unicode是little endian 低位开头

对于英文来说,直接用unicode来储存是非常浪费空间和不利于传输,所以就出现了UTF-8,UTF-8是unicode和一种实现方式,只是它的储存方式
有所不同,它每个字节都有个头标记,如0XXX XXXX开头就表示一个字节为一个unicode编码,110X XXXX 10XX XXXX两个字节为一个unicode编码,

UTF-16多出的部分是ucs-2还是ucs-4??

16进制编码范围        UTF-16表示方法(二进制)              10进制码范围      字节数量
U+0000---U+FFFF      xxxxxxxx xxxxxxxx                0-65535         2
U+10000---U+10FFFF    110110yyyyyyyyyy 1 10111xxxxxxxxxx      65536-1114111      4

UTF-16可看成是UCS-2的父集。在没有辅助平面字符(surrogate code points)前,UTF-16与UCS-2所指的是同一的意思。但当引入辅助平面字符后,就称为UTF-16了。现在若有软件声称自己支持UCS-2编码,那其实是暗指它不能支持在UTF-16中超过2bytes的字集。对于小于0x10000的UCS码,UTF-16编码就等于UCS码。

但UTF-16却无法兼容于ASCII编码。

UTF-16是16个字节的,那UTF-16是不是不便于传送了???

little endian低位开头

big endian高位开头

其它就参考 http://zh.wikipedia.org/zh-cn/UTF-16

posted @ 2012-11-16 21:17  wahgon  阅读(302)  评论(0编辑  收藏  举报