Python中文乱码问题

　　字符串在Python内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。

　　decode的作用是将其他编码的字符串转换成unicode编码，如str1.decode('gb2312')，表示将gb2312编码的字符串str1转换成unicode编码。

　　encode的作用是将unicode编码转换成其他编码的字符串，如str2.encode('gb2312')，表示将unicode编码的字符串str2转换成gb2312编码。

　　因此，转码的时候一定要先搞明白，字符串str是什么编码，然后decode成unicode，然后再encode成其他编码。

　　获得系统的默认编码？

　　#!/usr/bin/env python
　　#coding=utf-8
　　import sys
　　print sys.getdefaultencoding()

　　在用Python抓取网页时，由于不同网站所采用的编码不同，使用decode时先知道该网页所采用的编码，也可以用python来获得

　　req=urllib2.Request("http://www.baidu.com/")
　　fd=urllib2.urlopen(req)
　　print fd.headers['Content-Type']

posted @ 2010-08-03 12:11 Done 阅读(826) 评论(0) 编辑收藏举报

刷新页面返回顶部

Done