三 python之文件处理
一. 文件处理
文件操作三部曲
-
打开文件,得到文件句柄并赋值给一个变量
f=open('a.txt','r',encoding='utf-8') #默认打开模式就为r
-
通过句柄对文件进行操作
data=f.read()
-
关闭文件
f.close()
资源回收以及字符编码
打开一个文件会占用两部分资源: 操作系统级打开的文件和应用程序的变量. 操作完一个文件, 必须把这两部分资源回收:
- f.close() #回收操作系统级打开的文件
- del f #回收应用程序级的变量
而python自动的垃圾回收机制决定了我们无需考虑del f,这就要求我们,在操作完毕文件后,一定要记住f.close()
#使用with打开文件, 不需要考虑关闭 with open('a.txt','w') as f: pass
打开文件的模式
Character | Meaning |
---|---|
‘r' | open for reading (default) |
‘w' | open for writing, truncating the file first |
‘a' | open for writing, appending to the end of the file if it exists |
‘b' | binary mode |
‘t' | text mode (default) |
‘+' | open a disk file for updating (reading and writing) |
‘U' | universal newline mode (for backwards compatibility; should not be used in new code) |
打开文件的模式有(默认为文本模式):
r ,只读模式【默认模式,文件必须存在,不存在则抛出异常】 w,只写模式【不可读;不存在则创建;存在则清空内容】 a, 之追加写模式【不可读;不存在则创建;存在则只追加内容】
对于非文本文件,我们只能使用b模式,"b"表示以字节的方式操作(而所有文件也都是以字节的形式存储的,使用这种模式无需考虑文本文件的字符编码、图片文件的jgp格式、视频文件的avi格式)
rb wb ab 注:以b方式打开时,读取到的内容是字节类型,写入时也需要提供字节类型,不能指定编码
了解部分
"+" 表示可以同时读写某个文件 r+,可读写,与a+的区别是可以写到文件任何位置 w+,可读写,与a+的区别是要清空文件内容 a+,可读写模式,写只能写在文件末尾
操作文件的方法
#掌握
f.read() #读取所有内容,光标移动到文件末尾,大文件慎用
f.readline() #读取一行内容,光标移动到第二行首部
f.readlines() #读取所有内容,读取每一行内容,存放于列表中,大文件慎用
f.write('1111\n222\n') #针对文本模式的写,需要自己写换行符
f.write('1111\n222\n'.encode('utf-8')) #针对b模式的写,需要自己写换行符
f.writelines(['333\n','444\n']) #文件模式
f.writelines([bytes('333\n',encoding='utf-8'),'444\n'.encode('utf-8')]) #b模式
#了解
f.readable() #文件是否可读
f.writable() #文件是否可读
f.closed #文件是否关闭
f.encoding #如果文件打开模式为b,则没有该属性
f.flush() #立刻将文件内容从内存刷到硬盘
f.name
练习,利用b模式,编写一个cp工具,要求如下:
1. 既可以拷贝文本又可以拷贝视频,图片等文件
2. 用户一旦参数错误,打印命令的正确使用方法,如usage: cp source_file target_file
提示:可以用import sys,然后用sys.argv获取脚本后面跟的参数
import sys
if len(sys.argv) != 3:
print('usage: cp source_file target_file')
sys.exit()
source_file,target_file=sys.argv[1],sys.argv[2]
with open(source_file,'rb') as read_f,open(target_file,'wb') as write_f:
for line in read_f:
write_f.write(line)
文件光标移动
#c.txt内容: "hello你好"
with open('c.txt','rt',encoding='utf-8') as f:
print(f.read(6)) #输出 hello你
print(f.tell()) #输出8, 因为一个英文字符占一个字节, 一个中文字符占三个字节
f.seek(0,0)
print(f.read(6))
f.seek(6,0) #会报错, 因为移动到了中文字符中间, 使得无法解码
f.seek(8,0)
print(f.read())
-
seek有三种移动方式0,1,2,其中1和2必须在b模式下进行,但无论哪种模式,都是以bytes为单位移动的
f.seek(p,0) 移动当文件第p个字节处,从文件开头 f.seek(p,1) 移动到相对于当前位置之后的p个字节 f.seek(p,2) 移动到相对文章尾之后的p个字节
-
truncate是截断文件,所以文件的打开方式必须可写,但是不能用w或w+等方式打开,因为那样直接清空文件了,所以truncate要在r+或a或a+等模式下测试效果
with open('access.log','a',encoding='utf-8') as f: f.truncate(3)
文件的修改
-
法一
import os with open('a.txt') as read_f,open('.a.txt.swap','w') as write_f: data=read_f.read() #全部读入内存,如果文件很大,会很卡 data=data.replace('alex','SB') #在内存中完成修改 write_f.write(data) #一次性写入新文件 os.remove('a.txt') os.rename('.a.txt.swap','a.txt')
-
法二: 将硬盘存放的该文件的内容一行一行地读入内存,修改完毕就写入新文件,最后用新文件覆盖源文件
import os with open('a.txt') as read_f,open('.a.txt.swap','w') as write_f: for line in read_f: line=line.replace('alex','SB') write_f.write(line) os.remove('a.txt') os.rename('.a.txt.swap','a.txt')