[Python] UTF-8最好不要带BOM

一、问题回顾：

问题：　　在写一个脚本读入IP分区表文件到list并做比较的时候，发现该成立的语句总是不成立，经调试后发现开头是这样：\xef\xbb\xbf1.0.3.0，故比较不成功。

解决办法：经查询后发现，\xef\xbb\xbf 是utf-8编码带BOM的标识，把文件转化为不带BOM的utf-8后，脚本正常。

用VIM去掉UTF-8方法：

1 '去掉utf-8 BOM
2 :set nobomb
3 '保留utf-8 BOM
4 :set bomb

二、UTF-8最好不要带BOM说明

BOM——Byte Order Mark，就是字节序标记

在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如果接收者收到FEFF，就表明这个字节流是Big-Endian的；如果收到FFFE，就表明这个字节流是Little- Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称作BOM。

UTF-8不需要BOM来表明字节顺序，但可以用BOM来表明编码方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8编码是EF BB BF。所以如果接收者收到以EF BB BF开头的字节流，就知道这是UTF-8编码了。

UTF-8 不需要 BOM，尽管 Unicode 标准允许在 UTF-8 中使用 BOM。
所以不含 BOM 的 UTF-8 才是标准形式，在 UTF-8 文件中放置 BOM 主要是微软的习惯（顺便提一下：把带有 BOM 的小端序 UTF-16 称作「Unicode」而又不详细说明，这也是微软的习惯）。
BOM（byte order mark）是为 UTF-16 和 UTF-32 准备的，用于标记字节序（byte order）。微软在 UTF-8 中使用 BOM 是因为这样可以把 UTF-8 和 ASCII 等编码明确区分开，但这样的文件在 Windows 之外的操作系统里会带来问题。

详细讨论见：http://www.cnblogs.com/findumars/p/3620078.html

posted @ 2015-12-03 10:06 Devops达人阅读(1148) 评论(0) 收藏举报

刷新页面返回顶部

DevOps达人

DevOps,不是一个传说！

[Python] UTF-8最好不要带BOM