第九章---文件处理

目录:

(一)文件打开与关闭

(二)文件读取

(三)文件写入和创建

(四)文件与文件夹删除

(五)缓存

(六)创建与删除目录

(七)拷贝文件与拷贝目录

(八)修改文件名、目录名

         、 对文件路径名的操作

        、判断文件、目录是否存在

        、文件大小和修改日期

       、当前工作目录

      、递归的遍历目录下面所有的文件

     、得到目录中所有的文件和子目录名

     、得到目录中指定扩展名的文件和子目录

 

正文:

(一)文件打开与关闭

(1)open() 函数----有两个参数:文件名和模式。

有四种打开文件的不同方法(模式):

  • "r" - 读取 - 默认值。打开文件进行读取,如果文件不存在则报错。
  • "a" - 追加 - 打开供追加的文件,如果不存在则创建该文件。
  • "w" - 写入 - 打开文件进行写入,如果文件不存在则创建该文件。
  • "x" - 创建 - 创建指定的文件,如果文件存在则返回错误。

此外,您可以指定文件是应该作为二进制还是文本模式进行处理。

  • "t" - 文本 - 默认值。文本模式。
  • "b" - 二进制 - 二进制模式(例如图像)。

(2)语法

此外,您可以指定文件是应该作为二进制还是文本模式进行处理:

f = open("demofile.txt")     # ’d:\project\log\log.txt’  绝对路径

以上代码等同于:

f = open("demofile.txt", "rt")

因为 "r" (读取)和 "t" (文本)是默认值,所以不需要指定它们。

注释:请确保文件存在,否则您将收到错误消息。

(3)文件关闭

完成后始终关闭文件是一个好习惯

f = open("demofile.txt", "r")
print(f.readline())
f.close()

#
Hello! Welcome to demofile.txt

注释:在某些情况下,由于缓冲,您应该始终关闭文件,在关闭文件之前,对文件所做的更改可能不会显示。

(4)参数 encoding

encoding 参数指定了读写文本文件时,使用的 字符编解码 方式。

读写文件底层操作读写的 都是字节。

调用open函数时,如果传入了encoding参数值:

  后面调用write写入字符串到文件中,open函数会使用指定encoding编码为字节串;
    
  后面调用read从文件中读取内容,open函数会使用指定encoding解码为字符串对象

如果调用的时候没有传入encoding参数值,open函数会使用系统缺省字符编码方式。 比如在中文的Windows系统上,就是使用cp936(就是gbk编码)。

建议大家编写代码 读写文本文件时,都指定该参数的值。

# 指定编码方式为 utf8
f = open('tmp.txt','w',encoding='utf8')

# write方法会将字符串编码为utf8字节串写入文件
f.write('白月黑羽:祝大家好运气')

# 文件操作完毕后, 使用close 方法关闭该文件对象
f.close()
上面使用的是utf8编码写入文件的。

运行一下,我们用notepad++文本编辑器(notepad++可以百度搜索下载)打开该文件。

可以发现该文件确实是utf8编码。
# mode参数指定为rb 就是用二进制读的方式打开文件
f = open('tmp.txt','rb')
content = f.read()   
f.close()  

# 由于是 二进制方式打开,所以得到的content是 字节串对象 bytes
# 内容为 b'\xe7\x99\xbd\xe6\x9c\x88\xe9\xbb\x91\xe7\xbe\xbd'
print(content) 

# 该对象的长度是字节串里面的字节个数,就是12,每3个字节对应一个汉字的utf8编码
print(len(content))

以二进制方式写数据到文件中,传给write方法的参数不能是字符串,只能是bytes对象

比如

# mode参数指定为 wb 就是用二进制写的方式打开文件
f = open('tmp.txt','wb')

content = '白月黑羽祝大家好运连连'
# 二进制打开的文件, 写入的参数必须是bytes类型,
# 字符串对象需要调用encode进行相应的编码为bytes类型
f.write(content.encode('utf8'))

f.close()  

如果你想在代码中 直接用数字 表示字节串的内容,并写入文件,可以这样

content = b'\xe7\x99\xbd\xe6\x9c\x88\xe9\xbb\x91\xe7\xbe\xbd'
f.write(content)

既然任何文件都可以以字节方式进行读取 和写入, 那么我来考考你们。

如何字节实现一个简单的文件拷贝功能呢?

比如实现一个函数,有两个参数,第一个参数是源文件路径,第二个参数是拷贝生成的目标文件路径。

可以像下面的代码这样

def fileCopy(srcPath,destPath):
    srcF = open(srcPath,'rb')
    content = srcF.read()
    srcF.close()

    destF = open(destPath,'wb')
    destF.write(content)
    destF.close()

fileCopy('1.png','1copy.png')

(二)文件读取

(1)读取文件的全部

假设我们有以下文件,位于与 Python 相同的文件夹中:

demofile.txt

Hello! Welcome to demofile.txt
This file is for testing purposes.
Good Luck!

如需打开文件,请使用内建的 open() 函数。

open() 函数返回文件对象,此对象有一个 read() 方法用于读取文件的内容:

实例

f = open("demofile.txt", "r")
print(f.read())

(2)只读取文件的一部分

默认情况下,read() 方法返回整个文本,但您也可以指定要返回的字符数:

返回文件中的前五个字符:

f = open("demofile.txt", "r")

print(f.read(5))

#结果:Hello

(3)读行

您可以使用 readline() 方法返回一行:

f = open("demofile.txt", "r")
print(f.readline())

#运行结果
Hello! Welcome to demofile.txt

通过两次调用 readline(),您可以读取前两行!

(4)循环读取

通过循环遍历文件中的行,您可以逐行读取整个文件:

f = open("demofile.txt", "r")
for x in f:
  print(x)

#运行结果
Hello! Welcome to demofile.txt
This file is for testing purposes.
Good Luck!

(5)with 语句

如果我们开发的程序 在进行文件读写之后,忘记使用close方法关闭文件, 就可能造成意想不到的问题。

我们可以使用with 语句 打开文件,像这样,就不需要我们调用close方法关闭文件。 Python解释器会帮我们调用文件对象的close方法。

如下

# open返回的对象 赋值为 变量 f
with open('tmp.txt') as f:
    linelist = f.readlines() 
    for line in linelist:
        print(line)
对文件的操作都放在with下面的缩进的代码块中。

(三)文件写入和创建

(1)写入已有文件

如需写入已有的文件,必须向 open() 函数添加参数:

  • "a" - 追加 - 会追加到文件的末尾
  • "w" - 写入 - 会覆盖任何已有的内容

打开文件 "demofile2.txt" 并将内容追加到文件中:

f = open("demofile2.txt", "a")
f.write("Now the file has more content!")
f.close()

#open and read the file after the appending:
f = open("demofile2.txt", "r")
print(f.read())

#结果
Hello! Welcome to demofile2.txt
This file is for testing purposes.
Good Luck!Now the file has more content!

打开文件 "demofile3.txt" 并覆盖内容:

f = open("demofile3.txt", "w")
f.write("Woops! I have deleted the content!")
f.close()

#open and read the file after the appending:
f = open("demofile3.txt", "r")
print(f.read())

#
Woops! I have deleted the content!

注释:"w" 方法会覆盖全部内容。

(2)创建新文件并写入

如需在 Python 中创建新文件,请使用 open() 方法,并使用以下参数之一:

  • "x" - 创建 - 将创建一个文件,如果文件存在则返回错误
  • "a" - 追加 - 如果指定的文件不存在,将创建一个文件
  • "w" - 写入 - 如果指定的文件不存在,将创建一个文件

实例

创建名为 "myfile.txt" 的文件:

f = open("myfile.txt", "x")

结果:已创建新的空文件!

实例

如果不存在,则创建新文件:

f = open("myfile.txt", "w")

(四)文件删除

(1)删除文件

如需删除文件,必须导入 OS 模块,并运行其 os.remove() 函数:

实例

删除文件 "demofile.txt":

import os
os.remove("demofile.txt")

(2)检查文件是否存在

为避免出现错误,您可能需要在尝试删除文件之前检查该文件是否存在:

实例

检查文件是否存在,然后删除它:

import os
if os.path.exists("demofile.txt"):
  os.remove("demofile.txt")
else:
  print("The file does not exist")

(3)删除文件夹

如需删除整个文件夹,请使用 os.rmdir() 方法:

实例

删除文件夹 "myfolder":

import os
os.rmdir("myfolder")

提示:您只能删除空文件夹。

(五)缓存

我们来看下面的代码:

f = open('tmp.txt','w',encoding='utf8')

f.write('白月黑羽:祝大家好运气')

# 等待 30秒,再close文件
import time
time.sleep(30)

f.close()


执行该程序时,执行完写入文件内容后,会等待30秒,再关闭文件对象。 在这30秒还没有结束的时候,如果你打开 tmp.txt, 将会惊奇的发现,该文件中啥内容也没有!!! 为什么? 不是刚刚执行过下面的代码吗? f.write(
'白月黑羽:祝大家好运气') 原来,我们执行write方法写入字节到文件中的时候,其实只是把这个请求提交给 操作系统。 操作系统为了提高效率,通常并不会立即把内容写到存储文件中, 而是写入内存的一个 缓冲区 。 等缓冲区的内容堆满之后,或者程序调用close 关闭文件对象的时候,再写入到文件中。 如果你确实希望,在调用write之后,立即把内容写到文件里面,可以使用 文件对象的 flush方法。
如下所示 f
= open('tmp.txt','w',encoding='utf8') f.write('白月黑羽:祝大家好运气') # 立即把内容写到文件里面 f.flush() # 等待 30秒,再close文件 import time time.sleep(30) f.close() 这样再执行程序,在等待的30秒期间,你打开文件,发现里面已经有写入的字符串 “白月黑羽:祝大家好运气” 了。

 (六)创建与删除目录

os.makedirs 可以递归的创建目录结构

import os
os.makedirs('tmp/python/fileop',exist_ok=True)
会在当前工作目录下面创建 tmp目录,在tmp目录下面再创建 python目录,在Python目录下面再创建fileop目录

exist_ok=True 指定了,如果某个要创建的目录已经存在,也不报错

os.remove 可以删除一个文件

os.remove('sdf.py')

shutil.rmtree() 可以递归的删除某个目录所有的子目录和子文件

import shutil
shutil.rmtree('tmp')

(七)拷贝文件与拷贝目录

shutil 模块里面有很多 目录文件操作的函数

拷贝文件,可以使用shutil模块的copyfile函数

比如:

from shutil import copyfile
# 拷贝 d:/tools/first.py 到 e:/first.py
copyfile('d:/tools/first.py', 'e:/first.py')


注意,如果拷贝前,e:/first.py 已经存在,则会被拷贝覆盖,所以使用该函数一定要小心。

如果我们要拷贝一个目录里面所有的内容(包括子目录和文件、子目录里面的子目录和文件,等等)到另外一个目录中,可以使用 shutil的copytree函数

from shutil import copytree

# 拷贝 d:/tools/aaa 目录中所有的内容 到 e:/bbb 中
copytree('d:/tools/aaa', 'e:/new/bbb')
注意拷贝前, 目标目录必须 不存在 ,否则会报错。


上面的代码执行前面,如果 e:/new/bbb 已经存在,执行到copytree时,就会报错

上面的代码执行前面,如果 e:/new 这个目录都不存在,执行到copytree时,就会 创建 e:/new 目录,再创建 e:/new/bbb 目录,再拷贝 d:/tools/aaa 目录中所有的内容 到 e:/new/bbb 中。

上面的代码执行前面,如果 e:/new 这个目录存在,但是 e:/new/bbb 不存在,执行到copytree时,就只会 创建 e:/new/bbb ,再拷贝 d:/tools/aaa 目录中所有的内容 到 e:/new/bbb 中。

 (八) 

修改文件名、目录名

要修改文件名、目录名,可以使用os模块的rename函数。比如:

import os

# 修改目录名 d:/tools/aaa 为 d:/tools/bbb
os.rename('d:/tools/aaa','d:/tools/bbb')

# 修改文件名 d:/tools/first.py 为 d:/tools/second.py
os.rename('d:/tools/first.py','d:/tools/second.py')

注意,Linux 系统上,如果重命名之前 d:/tools/second.py 已经存在,则会被覆盖,所以使用该函数一定要小心。

对文件路径名的操作

对于文件名的操作,比如 获取文件名称,文件所在目录,文件路径的拼接等,都可以使用 os.path 模块。

通常我们喜欢使用格式化字符串的方法来做文件路径的拼接,但是如果你的程序需要在Linux、Windows等多个平台运行,它们的路径的分隔符是不同的,Windows上是 \ , 而 Linux上是 /

这时,我们应该使用 os.path 模块。 它能够自动处理类似 Data/data.csv 和 Data\data.csv 这样的文件路径差异。

比如:

>>> import os
>>> path = '/Users/beazley/Data/data.csv'

>>> # 获取路径中的文件名部分
>>> os.path.basename(path)
'data.csv'

>>> # 获取路径中的目录部分
>>> os.path.dirname(path)
'/Users/beazley/Data'

>>> # 文件路径的拼接
>>> os.path.join('tmp', 'data', os.path.basename(path))
'tmp/data/data.csv'

判断文件、目录是否存在

如果我们需要判断一个指定路径的文件或者目录是否存在,可以使用下面的方法

import os
os.path.exists('d:/systems/cmd.exe')
os.path.exists('d:/systems')
exists方法返回值为True表示 存在,否则表示不存在。


如果你要判断指定路径是否是文件,可以这样
import os

# 返回值为True 表示是文件
os.path.isfile('d:/systems/cmd.exe')


如果你要判断指定路径是否是目录,可以这样
import os # 返回值为True 表示是目录 os.path.isdir('d:/systems')

文件大小和修改日期

# 返回文件大小
>>> os.path.getsize('file1') 
3669

# 返回文件的最后修改日期,是秒时间
# 参考下一章 日期和时间 里面的内容
>>> os.path.getmtime('file1') 
1272478234.0

# 可以把秒时间 转化为日期时间
>>> import time
>>> time.ctime(os.path.getmtime('/etc/passwd'))
'Wed Apr 28 13:10:34 2010'
>>>

当前工作目录

我们的程序运行时,是有 当前工作目录 的。

程序代码中所有的对文件的访问,如果使用相对路径,都是基于这个当前工作目录。

有时候我们需要得到程序的当前工作目录的路径,可以使用

cwd = os.getcwd()
如果需要改变当前工作目录到另外的路径,可以使用

os.chdir(path)
参数就是 新的当前工作目录 路径地址。

递归的遍历目录下面所有的文件

假如我们要获取某个目录中所有的 文件, 包括子目录里面的文件。 可以使用 os库中的walk方法

比如我们要得到某个目录下面所有的子目录 和所有的文件,存放在两个列表中

可以这样写代码

import os

# 目标目录
targetDir = r'd:\tmp\util\dist\check'
files = []
dirs  = []

# 下面的三个变量 dirpath, dirnames, filenames
# dirpath 代表当前遍历到的目录名
# dirnames 是列表对象,存放当前dirpath中的所有子目录名
# filenames 是列表对象,存放当前dirpath中的所有文件名

for (dirpath, dirnames, filenames) in os.walk(targetDir):
    files += filenames
    dirs += dirnames

print(files)
print(dirs)

如果要得到某个目录下所有文件的全路径可以这样

import os

# 目标目录
targetDir = r'd:\tmp\util\dist\check'

for (dirpath, dirnames, filenames) in os.walk(targetDir):
    for fn in filenames:
        # 把 dirpath 和 每个文件名拼接起来 就是全路径
        fpath = os.path.join(dirpath, fn)

得到目录中所有的文件和子目录名

import os

# 目标目录
targetDir = r'd:\tmp\util\dist\check'


files =  os.listdir(targetDir)
print(files)

listdir返回的是该目录下面所有的文件和子目录。

如果我们只需要获取目录中所有的文件,或者只需要子目录,可以这样

import os
from os.path import isfile, join,isdir

# 目标目录
targetDir = r'd:\tmp\util\dist\check'

# 所有的文件
print([f for f in os.listdir(targetDir) if isfile(join(targetDir, f))])

# 所有的目录
print([f for f in os.listdir(targetDir) if isdir(join(targetDir, f))])

得到目录中指定扩展名的文件和子目录

可以使用glob库

import glob
exes = glob.glob(r'd:\tmp\*.txt')

print(exes)

 

posted @ 2021-01-15 23:34  山那边不是山  阅读(142)  评论(0编辑  收藏  举报