UTF的字节序和BOM
摘要:
UTF-8以字节为编码单元,没有字节序的问题。UTF-16以两个字节为编码单元,在解释一个UTF-16文本前,首先要弄清楚每个编码单元的字节序。例如“奎”的Unicode编码是“594E”,“乙”的Unicode编码是“4E59”。如果收到UTF-16字节流“594E”,那么这是“奎”还是“乙”?Unicode规范中推荐的标记字节顺序的方法是BOM。BOM不是“Bill Of Material”的BOM表,而是Byte Order Mark。 BOM是一个有点小聪明的想法:在UCS(Unicode Character Set)编码中有一个叫做“ZERO WIDTH NO-BREAK SPACE 阅读全文
posted @ 2012-11-07 14:37 zhuyf87 阅读(718) 评论(0) 推荐(0) 编辑