关于python中的编码:unicode, utf-8, gb2312

计算机早期是只支持ASCII码的，经过long long的发展，出现了这些支持世界上各种语言字符的编码：unicode, utf-8, gb2312.

对于unicode, utf-8, gb2312，虽然都能表示各种字符，但是各种字符在各种编码方式下的码是不一样的。可以把utf-8, gb2312理解为unicode这种编码思想（支持各种字符）的各种实现。

python中的函数unicode(str, "UTF-8")，可以返回"UTF-8"编码的字符串str的unicode码，当然如果字符串不是"UTF-8"编码的，运行就会报错（如：UnicodeDecodeError: 'utf8' codec can't decode byte *** in position ***）。

相关的函数还有encode, decode，顾名思义，就是按照相应的参数类型进行编解码。

一些系统、开发环境都有默认的编码方式，如记事本和一些编辑器默认编码方式是ANSI，在这种方式下输入汉字，使用的是GB系列的编码方式，代码处理的时候需要注意~~

posted on 2014-03-12 14:05 guoxiang 阅读(1811) 评论(0) 收藏举报

刷新页面返回顶部

关于python中的编码:unicode, utf-8, gb2312

公告