1、#coding=utf8
文本的字符编码
s=u'xxxx'.encode('utf8')
2、sys.getdefaultencoding,sys,setdefaultencoding
转换缺省使用编码
s.decode('utf8').encode('gbk')
通常s.decode('utf8'),unicode也能正确输出
3、sys.stdin.encoding,sys.stdout.encoding
输出编码
sys.stdout.encoding='gbk'
改变标准输出流的编码方式的方法
import codecs, sys
old=sys.stdout
sys.stdout = codecs.lookup('iso8859-1')[-1]( sys.stdout)
4、打开文件
用codecs类
f=code.open('out.html','w','utf-8')
5、字符编码判断
import chardet
chardet.detect(rawdata)
{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}

posted on 2014-02-20 10:46  perel  阅读(250)  评论(0编辑  收藏  举报