python编码问题
以抓取网易图片的程序为例说明python的编码问题,主要涉及python中文乱码,unicode和str类型转换,python解释器处理编码方式等问题。
1 #coding:utf-8 2 import sys 3 reload(sys) 4 sys.setdefaultencoding('utf-8') 5 6 import re 7 import requests 8 import os 9 import urllib 10 11 def down_pic(url): 12 pic_html = requests.get(url) 13 if pic_html.status_code == 200: 14 pic_html_text = pic_html.text 15 #print pic_html.encoding 16 #print pic_html_text 17 18 #获取所有图片url,选择图片均为大图 19 pic_gallery_patt = r'"oimg": "(.+?.jpg)"' 20 #获取图片链接的主题 21 title_patt = r'<title>(.+?)</title>' 22 #获取图片的名称 23 img_name_patt = r'"id": "(.+?)",' 24 25 img_text = re.findall(pic_gallery_patt, pic_html_text) 26 title_name = re.findall(title_patt, pic_html_text) 27 file_name = re.findall(img_name_patt, pic_html_text) 28 29 #创建文件夹,需要处理转义符 30 curr_path = os.getcwd() 31 curr_path = curr_path.replace('\\', '/') 32 file_dir = curr_path + '/' 33 if os.path.exists(file_dir): 34 file_dir += title_name[0] 35 file_dir += '/' 36 #curr_path 是str类型,title_name[0]是unicode类型 37 #print type(file_dir) 38 #直接将unicode作为参数传入mkdir()方法,Python将先使用源代码文件声明的字符编码进行编码然后写入 39 os.mkdir(file_dir) 40 41 print '开始下载......' 42 43 for dic in zip(img_text,file_name): 44 #requests模块抓取的网页内容为unicode类型,可以用encode可以转换为utf-8编码的str类型 45 img_utf8_url = dic[0] 46 #生成图片存储路径 47 file_name_str = dic[1] 48 file_type = ".jpg" 49 #unicode类型和str类型连接生成新对象为unicode类型 50 filepath = file_dir + file_name_str + file_type 51 print img_utf8_url, filepath 52 #filepath为unicode类型,normcase函数会把filepath自动处理成系统可以使用的字符串 53 #filepath = os.path.normcase(filepath) 54 urllib.urlretrieve(img_utf8_url, filepath) 55 56 print '下载完成......' 57 58 59 if __name__ == '__main__': 60 pic_url = r'http://news.163.com/photoview/00AP0001/37116.html?from=tj_day#p=96A9I01H00AP0001' 61 down_pic(pic_url)
1.python中的str和unicode
首先,程序的第一步是用requests模块获取网页,pic_html.text获得响应内容,以 unicode表示(如果用pic_html.content,内容将以bytes表示)。
file_dir += title_name[0]是为了生成文件目录,但是file_dir是str类型,title_name[0]是unicode类型,连接之后是什么类型呢?用type函数查看file_dir发现是unicode类型。说明一个unicode类型和str类型连接得到的是unicode类型。
下面解释一下str和unicode:
str和unicode都是basestring的子类。严格意义上说,str其实是字节串,它是unicode经过编码后的字节组成的序列。对UTF-8编码的str'汉'使用len()函数时,结果是3,因为实际上,UTF-8编码的'汉' == '\xE6\xB1\x89'。
unicode才是真正意义上的字符串,对字节串str使用正确的字符编码进行解码后获得,并且len(u'汉') == 1。
我们看一下unicode的解释:
Unicode字符串
Unicode是书写国际文本的标准方法。如果你想要用你的母语如北印度语或阿拉伯语写文本,那么你需要有一个支持Unicode的编辑器。类似地,Python允许你处理Unicode文本——你只需要在字符串前加上前缀u或U。例如,u"This is a Unicode string."。
记住,在你处理文本文件的时候使用Unicode字符串,特别是当你知道这个文件含有用非英语的语言写的文本。
str其实是字节串,它是unicode字符串经过编码(encode)后的字节组成的序列。unicode是str字符串经过解码(encode)后的字符串
encode和decode的使用:
(unicode字符串).encode是指将unicode转换成其他格式的编码
例:u'中文'.encode('utf8')将unicode字符串(u'中文')转换成utf8编码
(str字符串).decode是指将其他格式的编码转换成unicode
例:'中文'.decode('utf8')将utf8字符串转换成unicode编码
就像下面这样使用
1 s = '你好' 2 print s 3 s.decode('utf-8') 4 print s 5 s1 = u'你好' 6 print s1 7 s1 = s1.encode('utf-8') 8 print s1
但是如果你直接在IDLE这样用就会报错,因为终端的默认编码设置为ascii,即s的编码是ascii,然而decode('utf-8')却是将utf8字符串转换成unicode编码。
如果decode('ascii')呢?由于ASCII无法将中文转成unicode,所以它仍然会报错了。
2. python中文乱码
1 s1 = u'你好' 2 print s1 3 s1 = s1.encode('utf-8') 4 print s1
在IDLE中,print s1会输出乱码,因为print只是把字节串传递给操作系统,而由操作系统决定以何种编码输出。对于unicode,就依赖于stdout的输出编码。由于stdout的默认输出编码为ascii,所以出错。同样s1转码后,以ascii编码输出utf8编码的字符串也会出错。
如果你要处理的程序中有中文,最好在开头加上:
1 #coding:utf-8 2 import sys 3 reload(sys) 4 sys.setdefaultencoding('utf-8')
推荐utf-8,不推荐cp936。
建议: 使用字符编码声明,并且同一工程中的所有源代码文件使用相同的字符编码声明。
如果你用sublime text2编写python程序,可能sublime text2已经把编码默认设为utf-8。但是为了万无一失,同样在文件头加上上述代码。
不管是str还是unicode,字符串在python内部的表示都是unicode编码,它相当于一种统一的中间编码。所以经常会需要从其他编码成unicode,或者从unicode解码到其他编码。这就意味着,对于代码文件,或者其他内容,不管这些内容的编码是ASCII还是UTF-8,python都会把这些内容转换成它所接受的编码—即unicode。
python解析器读取代码文件本身时,会试图把它转成unicode。但是上面的代码文件中出现了中文,并且文件头上没有任何的编码声明,python就会试图采用默认的ASCII编码来把中文转成unicode,但是显然,ASCII无法将中文转成unicode,所以它报错了。
在文件的第一行加上声明:#coding=编码字符串,注意声明的编码必须与文件实际保存的编码一致
3.为什么os.mkdir()和urllib.urlretrieve(url, filepath)能够接受unicode类型?
可以参考对python读写文件的解释:
open()打开文件时,read()读取的是str,读取后需要使用正确的编码格式进行decode()。
write()写入文件时,如果参数是 unicode,则需要使用你希望写入的编码进行encode();如果是其他编码格式的str,则需要先用该str的编码进行decode(),转成 unicode后再使用写入的编码进行encode();如果直接将unicode作为参数传入write()方法,Python将先使用源代码文件声明的字符编码进行编码然后写入。
os.mkdir()和urllib.urlretrieve(url, filepath)同理。