摘要: UTF8是一种储存和传送的格式。 UTF8是以8bits即1Bytes为编码的最基本单位,也可以基于16bits和32bits的形式,分别称为UTF16和UTF32,但目前使用不多,而UTF8则被广泛应用在文件储存和网络传输中。 编码原理 先看这个模板: UCS-4 range (hex.) UTF-8octet sequence (binary)0000 0000-0000 007F 0xxxxxxx0000 0080-0000 07FF 110xxxxx 10xxxxxx0000 0800-0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx 0001 0000-00. 阅读全文
posted @ 2011-11-14 10:45 higirle 阅读(268) 评论(0) 推荐(0) 编辑
摘要: UTF-8是Unicode的一种实现方式,也就是它的字节结构有特殊要求,所以我们说一个汉字的范围是0X4E00到0x9FA5,是指unicode值,至于放在utf-8的编码里去就是由三个字节来组织,所以可以看出unicode是给出一个字符的范围,定义了这个字是码值是多少,至于具体的实现方式可以有多种多样来实现。note: UTF-8编码方式保存,采用0xEF,0xBB,0xBF共三个字节作为UTF-8编码标志。--UTF-8是一种变长字节编码方式。对于某一个字符的UTF-8编码,如果只有一个字节则其最高二进制位为0;如果是多字节,其第一个字节从最高位开始,连续的二进制位值为1的个数决定了其编. 阅读全文
posted @ 2011-11-14 10:39 higirle 阅读(306) 评论(0) 推荐(0) 编辑
摘要: Byte order markByte order markFrom Wikipedia, the free encyclopedia Jump to: navigation, searchThe byte order mark (BOM) is a Unicode character used to signal the endianness (byte order) of a text file or stream. Its code point is U+FEFF. BOM use is optional, and, if used, should appear at ... 阅读全文
posted @ 2011-11-14 10:30 higirle 阅读(302) 评论(0) 推荐(0) 编辑