文件名乱码问题

Python中通过open()操作文件时的文件中文名乱码问题

　　最近在用Python进行文件操作的时候，遇到创建中文文件名的乱码问题。

　　Python默认是不支持中文的，一般我们在程序的开头加上#-*-coding:utf-8-*-来解决这个问题，但是在我用open()方法打开文件时，中文名字却显示成了乱码。

　　我先给大家说说Python中的编码问题，Python中的字符串的大概分为为str和Unicode两种形式，其中str常用的编码类型为utf-8,gb2312,gbk等等，Python使用Unicode作为编码的基础类型。str记录的是字节数组，只是某种编码的存储格式，终于输出到文件或是打印出来是什么格式，完全取决于其解码的编码将他解码成什么样子；Unicode是一种类似于符号集的抽象编码，它只规定了符号的二进制代码，却没有规定这个二进制代码该如何存储，也就是它只是一种内部表示，不能直接保存，所以存储时需要规定一种存储形式，比如utf-8等。

　　Python中有编码转换的函数，decode（char_set）可以实现其他编码到Unicode的转换，encode(char_set)实现Unicode到其他编码的转换。

　　查看Python文档会发现：

　　　　open(filename, 'w')这个方法中，filename这个参数必须是Unicode编码的参数

　　我之前加上#-*-coding:utf-8-*-将编码设置为utf-8，当调用这个方法往里传参数时，需要将这个变量编码转换为Unicode，比如name='中国'，使用open()时，这样写open(name.decode('utf-8'), 'w'),这样创建的中文文件名就没有乱码问题了，问题解决。

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import urllib
import urllib2

def loadPage(url, filename):
    """
        作用：根据url发送请求，获取服务器响应文件
        url: 需要爬取的url地址
        filename : 处理的文件名
    """
    print "正在下载 " + filename
    headers = {"User-Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"}

    request = urllib2.Request(url, headers = headers)
    return urllib2.urlopen(request).read()

def writePage(html, filename):
    """
        作用：将html内容写入到本地
        html：服务器相应文件内容
    """
    print "正在保存 " + filename
    # 文件写入
    with open(filename.decode('utf-8'), 'w') as f:
        f.write(html)
    print "-" * 30

def tiebaSpider(url, beginPage, endPage):
    """
        作用：贴吧爬虫调度器，负责组合处理每个页面的url
        url : 贴吧url的前部分
        beginPage : 起始页
        endPage : 结束页
    """
    for page in range(beginPage, endPage + 1):
        pn = (page - 1) * 50
        filename = "第" + str(page) + "页.html"
        fullurl = url + "&pn=" + str(pn)
        #print fullurl
        html = loadPage(fullurl, filename)
        #print html
        writePage(html, filename)
        print "谢谢使用"

if __name__ == "__main__":
    kw = raw_input("请输入需要爬取的贴吧名:")
    beginPage = int(raw_input("请输入起始页："))
    endPage = int(raw_input("请输入结束页："))

    url = "http://tieba.baidu.com/f?"
    key = urllib.urlencode({"kw": kw})
    fullurl = url + key
    tiebaSpider(fullurl, beginPage, endPage)

如果没有加这句 filename.decode('utf-8')，就会报如下错误:

 IOError: [Errno 22] invalid mode ('w') or filename: '\xe7\xac\xac2\xe9\xa1\xb5.html'

posted on 2018-02-03 20:21 wei_hu 阅读(906) 评论(0) 收藏举报

刷新页面返回顶部

导航

文件名乱码问题

Python中通过open()操作文件时的文件中文名乱码问题