第九章---文件处理

（一）文件打开与关闭

（二）文件读取

（三）文件写入和创建

（四）文件与文件夹删除

（五）缓存

（六）创建与删除目录

（七）拷贝文件与拷贝目录

（八）修改文件名、目录名

、对文件路径名的操作

、判断文件、目录是否存在

、文件大小和修改日期

、当前工作目录

、递归的遍历目录下面所有的文件

正文：

（一）文件打开与关闭

（1）open() 函数----有两个参数：文件名和模式。

有四种打开文件的不同方法（模式）：

"r" - 读取 - 默认值。打开文件进行读取，如果文件不存在则报错。
"a" - 追加 - 打开供追加的文件，如果不存在则创建该文件。
"w" - 写入 - 打开文件进行写入，如果文件不存在则创建该文件。
"x" - 创建 - 创建指定的文件，如果文件存在则返回错误。

此外，您可以指定文件是应该作为二进制还是文本模式进行处理。

"t" - 文本 - 默认值。文本模式。
"b" - 二进制 - 二进制模式（例如图像）。

（2）语法

此外，您可以指定文件是应该作为二进制还是文本模式进行处理：

f = open("demofile.txt")     # ’d:\project\log\log.txt’  绝对路径

以上代码等同于：

f = open("demofile.txt", "rt")

因为 "r" (读取)和 "t" (文本)是默认值，所以不需要指定它们。

注释：请确保文件存在，否则您将收到错误消息。

（3）文件关闭

完成后始终关闭文件是一个好习惯

f = open("demofile.txt", "r")
print(f.readline())
f.close()

#
Hello! Welcome to demofile.txt

注释：在某些情况下，由于缓冲，您应该始终关闭文件，在关闭文件之前，对文件所做的更改可能不会显示。

（4）参数 encoding

encoding 参数指定了读写文本文件时，使用的字符编解码方式。

读写文件底层操作读写的都是字节。

调用open函数时，如果传入了encoding参数值：

  后面调用write写入字符串到文件中，open函数会使用指定encoding编码为字节串；
    
  后面调用read从文件中读取内容，open函数会使用指定encoding解码为字符串对象

如果调用的时候没有传入encoding参数值，open函数会使用系统缺省字符编码方式。比如在中文的Windows系统上，就是使用cp936（就是gbk编码）。

建议大家编写代码读写文本文件时，都指定该参数的值。

# 指定编码方式为 utf8
f = open('tmp.txt','w',encoding='utf8')

# write方法会将字符串编码为utf8字节串写入文件
f.write('白月黑羽：祝大家好运气')

# 文件操作完毕后， 使用close 方法关闭该文件对象
f.close()
上面使用的是utf8编码写入文件的。

运行一下，我们用notepad++文本编辑器（notepad++可以百度搜索下载）打开该文件。

可以发现该文件确实是utf8编码。

# mode参数指定为rb 就是用二进制读的方式打开文件
f = open('tmp.txt','rb')
content = f.read()   
f.close()  

# 由于是 二进制方式打开，所以得到的content是 字节串对象 bytes
# 内容为 b'\xe7\x99\xbd\xe6\x9c\x88\xe9\xbb\x91\xe7\xbe\xbd'
print(content) 

# 该对象的长度是字节串里面的字节个数，就是12，每3个字节对应一个汉字的utf8编码
print(len(content))

以二进制方式写数据到文件中，传给write方法的参数不能是字符串，只能是bytes对象

比如

# mode参数指定为 wb 就是用二进制写的方式打开文件
f = open('tmp.txt','wb')

content = '白月黑羽祝大家好运连连'
# 二进制打开的文件， 写入的参数必须是bytes类型，
# 字符串对象需要调用encode进行相应的编码为bytes类型
f.write(content.encode('utf8'))

f.close()  

如果你想在代码中 直接用数字 表示字节串的内容，并写入文件，可以这样

content = b'\xe7\x99\xbd\xe6\x9c\x88\xe9\xbb\x91\xe7\xbe\xbd'
f.write(content)

既然任何文件都可以以字节方式进行读取 和写入， 那么我来考考你们。

如何字节实现一个简单的文件拷贝功能呢？

比如实现一个函数，有两个参数，第一个参数是源文件路径，第二个参数是拷贝生成的目标文件路径。

可以像下面的代码这样

def fileCopy(srcPath,destPath):
    srcF = open(srcPath,'rb')
    content = srcF.read()
    srcF.close()

    destF = open(destPath,'wb')
    destF.write(content)
    destF.close()

fileCopy('1.png','1copy.png')

（二）文件读取

（1）读取文件的全部

假设我们有以下文件，位于与 Python 相同的文件夹中：

demofile.txt

Hello! Welcome to demofile.txt
This file is for testing purposes.
Good Luck!

如需打开文件，请使用内建的 open() 函数。

open() 函数返回文件对象，此对象有一个 read() 方法用于读取文件的内容：

实例

f = open("demofile.txt", "r")
print(f.read())

（2）只读取文件的一部分

默认情况下，read() 方法返回整个文本，但您也可以指定要返回的字符数：

返回文件中的前五个字符：

f = open("demofile.txt", "r")

print(f.read(5))

#结果：Hello

（3）读行

您可以使用 readline() 方法返回一行：

f = open("demofile.txt", "r")
print(f.readline())

#运行结果
Hello! Welcome to demofile.txt

通过两次调用 readline()，您可以读取前两行！

（4）循环读取

通过循环遍历文件中的行，您可以逐行读取整个文件：

f = open("demofile.txt", "r")
for x in f:
  print(x)

#运行结果
Hello! Welcome to demofile.txt
This file is for testing purposes.
Good Luck!

（5）with 语句

如果我们开发的程序在进行文件读写之后，忘记使用close方法关闭文件，就可能造成意想不到的问题。

我们可以使用with 语句打开文件，像这样，就不需要我们调用close方法关闭文件。 Python解释器会帮我们调用文件对象的close方法。

如下

# open返回的对象 赋值为 变量 f
with open('tmp.txt') as f:
    linelist = f.readlines() 
    for line in linelist:
        print(line)
对文件的操作都放在with下面的缩进的代码块中。

（三）文件写入和创建

（1）写入已有文件

如需写入已有的文件，必须向 open() 函数添加参数：

"a" - 追加 - 会追加到文件的末尾
"w" - 写入 - 会覆盖任何已有的内容

打开文件 "demofile2.txt" 并将内容追加到文件中：

f = open("demofile2.txt", "a")
f.write("Now the file has more content!")
f.close()

#open and read the file after the appending:
f = open("demofile2.txt", "r")
print(f.read())

#结果
Hello! Welcome to demofile2.txt
This file is for testing purposes.
Good Luck!Now the file has more content!

打开文件 "demofile3.txt" 并覆盖内容：

f = open("demofile3.txt", "w")
f.write("Woops! I have deleted the content!")
f.close()

#open and read the file after the appending:
f = open("demofile3.txt", "r")
print(f.read())

#
Woops! I have deleted the content!

注释："w" 方法会覆盖全部内容。

（2）创建新文件并写入

如需在 Python 中创建新文件，请使用 open() 方法，并使用以下参数之一：

"x" - 创建 - 将创建一个文件，如果文件存在则返回错误
"a" - 追加 - 如果指定的文件不存在，将创建一个文件
"w" - 写入 - 如果指定的文件不存在，将创建一个文件

实例

创建名为 "myfile.txt" 的文件：

f = open("myfile.txt", "x")

结果：已创建新的空文件！

实例

如果不存在，则创建新文件：

f = open("myfile.txt", "w")

（四）文件删除

（1）删除文件

如需删除文件，必须导入 OS 模块，并运行其 os.remove() 函数：

实例

删除文件 "demofile.txt"：

import os
os.remove("demofile.txt")

（2）检查文件是否存在

为避免出现错误，您可能需要在尝试删除文件之前检查该文件是否存在：

实例

检查文件是否存在，然后删除它：

import os
if os.path.exists("demofile.txt"):
  os.remove("demofile.txt")
else:
  print("The file does not exist")

（3）删除文件夹

如需删除整个文件夹，请使用 os.rmdir() 方法：

实例

删除文件夹 "myfolder"：

import os
os.rmdir("myfolder")

提示：您只能删除空文件夹。

（五）缓存

我们来看下面的代码：

f = open('tmp.txt','w',encoding='utf8')

f.write('白月黑羽：祝大家好运气')

# 等待 30秒，再close文件
import time
time.sleep(30)

f.close()


执行该程序时，执行完写入文件内容后，会等待30秒，再关闭文件对象。
在这30秒还没有结束的时候，如果你打开 tmp.txt， 将会惊奇的发现，该文件中啥内容也没有！！！
为什么？
不是刚刚执行过下面的代码吗？
f.write('白月黑羽：祝大家好运气')

原来，我们执行write方法写入字节到文件中的时候，其实只是把这个请求提交给 操作系统。
操作系统为了提高效率，通常并不会立即把内容写到存储文件中， 而是写入内存的一个 缓冲区 。
等缓冲区的内容堆满之后，或者程序调用close 关闭文件对象的时候，再写入到文件中。
如果你确实希望，在调用write之后，立即把内容写到文件里面，可以使用 文件对象的 flush方法。

如下所示
f = open('tmp.txt','w',encoding='utf8')
f.write('白月黑羽：祝大家好运气')
# 立即把内容写到文件里面
f.flush()

# 等待 30秒，再close文件
import time
time.sleep(30)

f.close()
这样再执行程序，在等待的30秒期间，你打开文件，发现里面已经有写入的字符串 “白月黑羽：祝大家好运气” 了。

（六）创建与删除目录

os.makedirs 可以递归的创建目录结构

import os
os.makedirs('tmp/python/fileop',exist_ok=True)
会在当前工作目录下面创建 tmp目录，在tmp目录下面再创建 python目录，在Python目录下面再创建fileop目录

exist_ok=True 指定了，如果某个要创建的目录已经存在，也不报错

os.remove 可以删除一个文件

os.remove('sdf.py')

shutil.rmtree() 可以递归的删除某个目录所有的子目录和子文件

import shutil
shutil.rmtree('tmp')

（七）拷贝文件与拷贝目录

shutil 模块里面有很多目录文件操作的函数

拷贝文件，可以使用shutil模块的copyfile函数。

比如：

from shutil import copyfile
# 拷贝 d:/tools/first.py 到 e:/first.py
copyfile('d:/tools/first.py', 'e:/first.py')


注意，如果拷贝前，e:/first.py 已经存在，则会被拷贝覆盖，所以使用该函数一定要小心。

如果我们要拷贝一个目录里面所有的内容（包括子目录和文件、子目录里面的子目录和文件，等等）到另外一个目录中，可以使用 shutil的copytree函数

from shutil import copytree

# 拷贝 d:/tools/aaa 目录中所有的内容 到 e:/bbb 中
copytree('d:/tools/aaa', 'e:/new/bbb')
注意拷贝前， 目标目录必须 不存在 ，否则会报错。


上面的代码执行前面，如果 e:/new/bbb 已经存在，执行到copytree时，就会报错

上面的代码执行前面，如果 e:/new 这个目录都不存在，执行到copytree时，就会 创建 e:/new 目录，再创建 e:/new/bbb 目录，再拷贝 d:/tools/aaa 目录中所有的内容 到 e:/new/bbb 中。

上面的代码执行前面，如果 e:/new 这个目录存在，但是 e:/new/bbb 不存在，执行到copytree时，就只会 创建 e:/new/bbb ，再拷贝 d:/tools/aaa 目录中所有的内容 到 e:/new/bbb 中。

（八）

修改文件名、目录名

要修改文件名、目录名，可以使用os模块的rename函数。比如：

import os

# 修改目录名 d:/tools/aaa 为 d:/tools/bbb
os.rename('d:/tools/aaa','d:/tools/bbb')

# 修改文件名 d:/tools/first.py 为 d:/tools/second.py
os.rename('d:/tools/first.py','d:/tools/second.py'）

注意，Linux 系统上，如果重命名之前 d:/tools/second.py 已经存在，则会被覆盖，所以使用该函数一定要小心。

对文件路径名的操作

对于文件名的操作，比如获取文件名称，文件所在目录，文件路径的拼接等，都可以使用 os.path 模块。

通常我们喜欢使用格式化字符串的方法来做文件路径的拼接，但是如果你的程序需要在Linux、Windows等多个平台运行，它们的路径的分隔符是不同的，Windows上是 \ , 而 Linux上是 /。

这时，我们应该使用 os.path 模块。它能够自动处理类似 Data/data.csv 和 Data\data.csv 这样的文件路径差异。

比如：

>>> import os
>>> path = '/Users/beazley/Data/data.csv'

>>> # 获取路径中的文件名部分
>>> os.path.basename(path)
'data.csv'

>>> # 获取路径中的目录部分
>>> os.path.dirname(path)
'/Users/beazley/Data'

>>> # 文件路径的拼接
>>> os.path.join('tmp', 'data', os.path.basename(path))
'tmp/data/data.csv'

判断文件、目录是否存在

如果我们需要判断一个指定路径的文件或者目录是否存在，可以使用下面的方法

import os
os.path.exists('d:/systems/cmd.exe')
os.path.exists('d:/systems')
exists方法返回值为True表示 存在，否则表示不存在。


如果你要判断指定路径是否是文件，可以这样
import os

# 返回值为True 表示是文件
os.path.isfile('d:/systems/cmd.exe')


如果你要判断指定路径是否是目录，可以这样
import os

# 返回值为True 表示是目录
os.path.isdir('d:/systems')

文件大小和修改日期

# 返回文件大小
>>> os.path.getsize('file1') 
3669

# 返回文件的最后修改日期，是秒时间
# 参考下一章 日期和时间 里面的内容
>>> os.path.getmtime('file1') 
1272478234.0

# 可以把秒时间 转化为日期时间
>>> import time
>>> time.ctime(os.path.getmtime('/etc/passwd'))
'Wed Apr 28 13:10:34 2010'
>>>

当前工作目录

我们的程序运行时，是有 当前工作目录 的。

程序代码中所有的对文件的访问，如果使用相对路径，都是基于这个当前工作目录。

有时候我们需要得到程序的当前工作目录的路径，可以使用

cwd = os.getcwd()
如果需要改变当前工作目录到另外的路径，可以使用

os.chdir(path)
参数就是 新的当前工作目录 路径地址。

递归的遍历目录下面所有的文件

假如我们要获取某个目录中所有的文件，包括子目录里面的文件。可以使用 os库中的walk方法

比如我们要得到某个目录下面所有的子目录和所有的文件，存放在两个列表中

可以这样写代码

import os

# 目标目录
targetDir = r'd:\tmp\util\dist\check'
files = []
dirs  = []

# 下面的三个变量 dirpath, dirnames, filenames
# dirpath 代表当前遍历到的目录名
# dirnames 是列表对象，存放当前dirpath中的所有子目录名
# filenames 是列表对象，存放当前dirpath中的所有文件名

for (dirpath, dirnames, filenames) in os.walk(targetDir):
    files += filenames
    dirs += dirnames

print(files)
print(dirs)

如果要得到某个目录下所有文件的全路径可以这样

import os

# 目标目录
targetDir = r'd:\tmp\util\dist\check'

for (dirpath, dirnames, filenames) in os.walk(targetDir):
    for fn in filenames:
        # 把 dirpath 和 每个文件名拼接起来 就是全路径
        fpath = os.path.join(dirpath, fn)

import os

# 目标目录
targetDir = r'd:\tmp\util\dist\check'


files =  os.listdir(targetDir)
print(files)

listdir返回的是该目录下面所有的文件和子目录。

如果我们只需要获取目录中所有的文件，或者只需要子目录，可以这样

import os
from os.path import isfile, join,isdir

# 目标目录
targetDir = r'd:\tmp\util\dist\check'

# 所有的文件
print([f for f in os.listdir(targetDir) if isfile(join(targetDir, f))])

# 所有的目录
print([f for f in os.listdir(targetDir) if isdir(join(targetDir, f))])

可以使用glob库

import glob
exes = glob.glob(r'd:\tmp\*.txt')

print(exes)

posted @ 2021-01-15 23:34 山那边不是山阅读(142) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

山那边不是山

第九章---文件处理

（一）文件打开与关闭

（1）open() 函数----有两个参数：文件名和模式。

（2）语法

（3）文件关闭

（4）参数 encoding

（二）文件读取

（1）读取文件的全部

demofile.txt

实例

（2）只读取文件的一部分

返回文件中的前五个字符：

（3）读行

（4）循环读取

（5）with 语句

（三）文件写入和创建

（1）写入已有文件

（2）创建新文件并写入

实例

实例

（四）文件删除

（1）删除文件

实例

（2）检查文件是否存在

实例

（3）删除文件夹

实例

（五）缓存

（六）创建与删除目录

（七）拷贝文件与拷贝目录

（八）

修改文件名、目录名

对文件路径名的操作

判断文件、目录是否存在

文件大小和修改日期

当前工作目录

递归的遍历目录下面所有的文件

得到目录中所有的文件和子目录名

得到目录中指定扩展名的文件和子目录

公告