文件处理二
一、x模式(控制文件操作的模式) 了解
x 只写模式(不可读;不存在则创建,存在则报错)
# with open('c.txt',mode='x',encoding='utf-8') as f:
# f.read()
二、控制文件读写内容的模式
t:
1、读写都是以字符串(unicode)为单位
2、只能针对文本文件
3、必须指定字符编码,即必须指定encoding参数
b:binary模式
1、读写都是以bytes为单位
2、可以针对所有文件
3、一定不能指定字符编码,即一定不能指定encoding参数
总结:
1、在操作纯文本文件方面t模式帮我们省去了编码与解码的环节,b模式则需要手动编码与解码,所以此时t模式更为方便
2、针对非文本文件(如图片、视频、音频等)只能使用b模式
# 错误演示:t模式只能读文本文件
# with open(r'爱nmlgb的爱情.mp4',mode='rt') as f:
# f.read() # 硬盘的二进制读入内存-》t模式会将读入内存的内容进行decode解码操作
with open(r'test.jpg',mode='rb') as f:
res=f.read() # 硬盘的二进制读入内存—>b模式下,不做任何转换,直接读入内存
print(res) # bytes类型—》当成二进制
print(type(res))
# 文件拷贝工具
# src_file=input('源文件路径>>: ').strip()
# dst_file=input('源文件路径>>: ').strip()
# with open(r'{}'.format(src_file),mode='rb') as f1,\
# open(r'{}'.format(dst_file),mode='wb') as f2:
# # res=f1.read() # 内存占用过大
# # f2.write(res)
#
# for line in f1:
# f2.write(line)
循环读取文件
方式一、自己控制每次读取的数据的数据量
# with open(r'test.jpg',mode='rb') as f:
# while True:
# res=f.read(1024) # 1024
# if len(res) == 0:
# break
# print(len(res))
方式二、以行为单位读,当一行内容过长时会导致一次性读入内容的数据量过大
# with open(r'g.txt',mode='rt',encoding='utf-8') as f:
# for line in f:
# print(len(line),line)
# with open(r'g.txt',mode='rb') as f:
# for line in f:
# print(line)
三、文件操作的其他方法
1读相关操作
1.1 readline:一次读一行
with open(r'g.txt',mode='rt',encoding='utf-8') as f:
res1=f.readline()
res2=f.readline()
print(res2)
1.2 readlines:把文件内容一次读取存放入列表
with open(r'g.txt',mode='rt',encoding='utf-8') as f:
res=f.readlines()
print(res)
['111\n', '222\n', '333\n', '444\n', '5555']
强调:f.read()与f.readlines()都是将内容一次性读入内存,如果内容过大会导致内存溢出
2写相关操作
writelines()把列表或字符串一次写入,不能输入纯数字
with open('h.txt',mode='wt',encoding='utf-8') as f:
f.write('1111\n222\n3333\n')
# l=['11111\n','2222','3333',4444]#错误的
f.writelines(l)
# 补充1:如果是纯英文字符,可以直接加前缀b得到bytes类型
# l = [
# b'1111aaa1\n',
# b'222bb2',
# b'33eee33'
# ]
# 补充2:'上'.encode('utf-8') 等同于bytes('上',encoding='utf-8')
l = [
bytes('上啊',encoding='utf-8'),
bytes('冲呀',encoding='utf-8'),
bytes('小垃圾们',encoding='utf-8'),
]
f.writelines(l)
3.flush:将文件立即写入硬盘
# with open('h.txt', mode='wt',encoding='utf-8') as f:
# f.write('哈')
# f.flush()
4.了解
# with open('h.txt', mode='wt',encoding='utf-8') as f:
# print(f.readable())
# print(f.writable())
# print(f.encoding)
# print(f.name)
#
# print(f.closed)
False
True
utf-8
h.txt
True
四、指针移动
指针动的单位都是以bytes/字节为单位,只有一种情况特殊, t模式下的read(n),n代表的是字符个数
# with open('aaa.txt',mode='rt',encoding='utf-8') as f:
# res=f.read(4)
# print(res)
f.seek(n,模式)n代表的是移动的字节数
f.tell 输出当前指针位置
模式0:参照物是文件开头位置
with open('aaa.txt',mode='rb') as f:
f.seek(9,0)
f.seek(3,0) # 3
模式1:参照物是当前指针所在位置
with open('aaa.txt',mode='rb') as f:
f.seek(9,1)
f.seek(3,1) # 12
模式2:参照物是文件末尾位置,应该倒着移动
with open('aaa.txt',mode='rb') as f:
f.seek(-9,2)
print(f.tell()) #0
f.seek(-3,2)
print(f.tell()) #6
f.seek()应用:监测文件
import time
with open('access.log', mode='rb') as f:
# 1、将指针跳到文件末尾
# f.read() # 错误
f.seek(0,2)
while True:
line=f.readline()
if len(line) == 0:
time.sleep(0.3)
else:
print(line.decode('utf-8'),end='')
with open('access.log', mode='at', encoding='utf-8') as f:
f.write('20200311111112 yyy转账200w\n') 写入文件,第一份代码不断的读出
五、文件修改的两种方式
方式一、文本编辑采用的就是这种方式
实现思路:将文件内容发一次性全部读入内存,然后在内存中修改完毕后再覆盖写回原文件
优点: 在文件修改过程中同一份数据只有一份
缺点: 会过多地占用内存
# with open('c.txt',mode='rt',encoding='utf-8') as f:
# res=f.read()
# data=res.replace('alex','dsb')
# print(data)
#
# with open('c.txt',mode='wt',encoding='utf-8') as f1:
# f1.write(data)
方式二、
实现思路:以读的方式打开原文件,以写的方式打开一个临时文件,一行行读取原文件内容,修改完后写入临时文件...,删掉原文件,将临时文件重命名原文件名
优点: 不会占用过多的内存
缺点: 在文件修改过程中同一份数据存了两份
import os
with open('c.txt', mode='rt', encoding='utf-8') as f, \
open('.c.txt.swap', mode='wt', encoding='utf-8') as f1:
for line in f:
f1.write(line.replace('alex', 'dsb'))
os.remove('c.txt')
os.rename('.c.txt.swap', 'c.txt')