python 的编码问题

老是碰到这个问题，决定好好给整理一番思路。

翻阅资料和实践证明，以下论述为真理：

字符串在Python内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。

即：

可以通过：sys.setdefaultencoding统一为decode和encode指定编码。默认情况下也是统一采用相同的方式decode和encode。

因此很多时候出错：

cannot decode xxxx

cannot encode xxxx

就是在这两个过程中出错的。

粗看有点脱裤子放屁的嫌疑：

假设我们的编码是gb2312，那么先转成unicode（decode过程）

然后再次转成gb2312（encode过程）。

实则不然，这是一个完全的设计，可以支持将某种编码：外星编码 ---(decode)---->python能够识别的编码-----(encode)---->人类能够识别的编码

很多函数也支持在处理时指定编码，比如 simplejson的dumps函数，有个参数 enable_ascii (是否有ascii码进行decode、encode）

默认情况下，我们在py文件的头部统一指定编码，像下面这样：

# -*- coding:utf-8 -*-

然后有些时候，（比如在windows平台中文环境下），得到的编码如果不是utf-8编码，这个时候用python处理字符串，首先它会用utf-8进行decode，若字符串不是unicode码，那么就会报错。

那么，我们可能会想到，直接给你decode好， str.decode('已经的某种编码') ，

好吧，这样可以，但在接下来encode时会报错，因为默认会按照 utf-8进行encode。而且这个过程可能你控制不了，比如通过find进行查找。人家没提供参数给你设定encode时的编码。

这个时候解决方法有两个：

1. 将文件头默认的coding改成已知编码

# -*- coding:已知编码 -*-

注意，这种方式下的非英文字符，如果前面加了u，则表示unicode码，即python的内部编码，可能无法激活转码机制（不太确定）。

2. 采用sys.setdefaultencoding强行加载编码

import sys

reload(sys)

sys.setdefaultencoding(已知编码)

posted @ 2014-10-12 13:27 tommy.yu 阅读(345) 评论(0) 收藏举报

刷新页面返回顶部

余文涛的烂笔记