自我总结08

文本处理
文件的三种打开方式
- encoding编码格式
- 打开文件的两种模式
绝对路径和相对路径
with管理文件上下文
文件的高级应用
- 光标的高级应用
文件的修改

文本处理

什么是文件处理：修改存储的信息

什么是文件：操作系统提供的虚拟概念，存储信息(用二进制存储信息)

什么是文本：.txt/.word/.md/.py/.xml/.ini 存储的是文字

视频/音频文件(多媒体文件)

# 1. 打开文件 ①文件路径Copy Path②打开模式,w-->write③
f = open(r'D:\day 09\test.py','w',encoding='utf8')

# 2. 读取/修改操作
f.write('''
孩儿立志出湘关，学不成名誓不还
埋骨何须桑之地，人生无处不青山
''')

# 3. 保存文件
f.flush()    # 快速保存，你可以不使用

# 4. 关闭文件
f.close()  # 告诉操作系统关闭文件


# file_path = r'D:\day09\test.py','w',encoding='utf8'
# f = open(file_path)  # 把该路径的文件读入内存，只是没有可视化的界面而已
# print(f)
# data = f.read()  # 读取文件
# print(data)
# f.close()

文件的三种打开方式

# 打开文件的三种模式 
r--》read（只读不可写）
w-->write(只写不可读，清空文本文件)
a--》append(只写不可读，追加)

# 读取：rt  read_text 读文本内容 只读
print(f.readable()) # 判断是否可读
print(f.writable()) # 判断是否可写

# r-->只读;
data = f.read()  # 读取所有文本内容
print(data)
# 仅作了解
# print(f.readline())  # 一行一行读取
# print(f.readlines())  # 读取所有行放入列表 


# 要循环读出文本内容
for i in f.read():  # 循环出一个个字符
    print(i)
for i in f:  # 循环出一行行 # 节省内存
    print(i)

    
# 文本读一行少一行,每一行末尾默认有一个换行
for i in f:
    print(i)

# print('f.readline():',f.readline())

# wt: 只写(w清空文件后写入),不可读
 f = open(r'D:\day 09\test.py', 'wt', encoding='utf8')
print(f.readable())
print(f.writable())

f.write('abc')  w-->清空写入;

# 仅作了解
# f.writelines(['abc', 'edf', 'gbk'])  # 自动拼接列表元素,一行写入

# at: 只写入(追加写入) a-->追加写入
f = open(r'D:\day 09\test.py', 'at', encoding='utf8')
print(f.readable())
print(f.writable())

encoding编码格式

# encoding指定写入的编码格式
f = open(r'D:\day 09\test.py', 'at', encoding='gbk')
f.write('中')

# encoding指定读文件的编码格式
f = open(r'D:\day 09\test.py', 'rt', encoding='gbk')
print(f.read())

打开文件的两种模式

b模式

所以音频通过rb模式打开-->读取二进制,b模式下没有encoding这个参数,b不单独使用,一般与r

# t和b模式
# gbk/utf8只针对文本,所以音频通过rb模式打开-->读取二进制,b模式下没有encoding这个参数,b不单独使用,一般与r/w/a一起配合使用

 f = open(r'D:\day 09\test.py','rb')  # 读入内存
 data = f.read()

# b模式一般用于图片/音频/视频的保存
import requests

response = requests.get('http://photocdn.sohu.com/20120708/Img347586981.jpg')
data = response.content  # 拿到图片的二进制
# print(data)

# w和a模式可以自动创建文件   没有就创建有就覆盖
f = open(r'D:\day 09\test.jpg', 'wb')
f.write(data)

t模式

t模式针对文本文件,t模式不单独使用,必读得和r/w/a一起使用

rt模式,默认r

f = open(r'D:\day 09\关于实施乡村振兴战略的意见.txt','rt',encoding='utf8')
data = f.read()
print(data)

# rt --> py/md(默认编码是utf8)/txt(默认编码是gbk)/word(默认编码是utf8)/ini


# pdf(PyPDF2)/excel(pandas)/xml(xml)/json/pkl (无法控制,可以使用其他模块(自己百度))

绝对路径和相对路径

# 文件的路径: 文件在硬盘的地址

# 绝对路径: 从盘符开始 D:\day 09\test.py

# 相对路径: 执行文件(当前运行的文件)的文件夹下的文件名,执行文件和打开文件属于同一文件夹下


# 未来些项目尽量用相对路径
f = open('test.py','r',encoding='utf8')
print(f.read())

with管理文件上下文

# with提供一个自动关闭文件(接触了操作系统的占用)
with open('test.py', 'r', encoding='utf8') as f:
    print(f.read())
    # 在这个缩进下不会关闭文件,在这个缩进下对文件操作
    
# 关闭文件(操作系统),没有关闭python内存中的文件
print(f)  # 只涉及python,不会报错
print(f.read())  # .read()涉及操作系统,报错

文件的高级应用

# 三种新的模式(可读又可写),尽量不要使用

# r只读/w清空写入/a追加写入  --> 要么只读,要么只写


# 假设一个文件即可读又可写,假设写需要10s,读需要5s

# 针对test.py,我们要写入一个国字,需要10s

# 过了1s,我们读了这个文件,5s过后,我们看到文件只有一个中字

# 感觉自己没写入,你会再一次写入一个国字(基于前面一个字是中字)

# 4s过后,第一个的写入成功了,文件变成 中国 了

# 再过6s,第二次写入一定失败

# 以前就发生过(现在的电脑牛逼了,所以不会有这种事发生,但是还是有一定概率的)

# 可写可读 r+
with open('test.py', 'r+', encoding='utf8') as fr:
    print(fr.readable())
    print(fr.writable())
    fr.write('高级')  # 光标在文件头部,覆盖后面的字符


# 可写可读 w+ 和 w 没有任何区别
with open('test.py', 'w+', encoding='utf8') as fw:
    print(fw.readable())
    print(fw.writable())

    
# 可写可读 a+ a模式默认光标在尾部
with open('test.py','a+',encoding='utf8') as fw:
    print(fw.readable())
    print(fw.writable())
    fw.seek(0,0)
    print(fw.read())


# 综上:如果你真的有即可读又可写的需求,用两种不同的模式打开两次文件

光标的高级应用

# 8个进制位为一个字节,3个8进制位组成一个字符(针对中文,英文是一个字节一个字符)
# (00000000-->一个字节 00000000 00000000) --> 一个字符,对应三个字节,对应一个中文  --> utf8


# 下三种移动光标的位置(以字节为单位)4
# seek
# with open('test.py', 'rb') as fr:
    # fr.seek(5)  # 移动了3个字节,一个中文,默认从开头开始
    # print(fr.read())
    # print(fr.read().decode('utf8'))

# whence规定只有0,1,2 三种模式  # 0相当于文件头开始；1相当于当前文件所在位置；2相当于文件末尾
     fr.seek(3, 0)  # 0从开头
     # print(fr.read().decode('utf8'))
     fr.seek(3, 1)
     print(fr.read().decode('utf8'))
     fr.seek(0, 2)
     print(fr.read())

# tell : 告诉你当前所在位置
 with open('test.py', 'rb') as fr:
     fr.seek(3, 0)
     print(fr.tell())

# truncate: 截断
with open('test.py', 'ab') as fa:
    fa.truncate(2)

# 移动光标(以字符为单位)
# read
# with open('test.py', 'r', encoding='utf8') as fr:
#     print(fr.read(3))  # n表示n个字符,不加默认读取所有 # 中文和英文都属于一个字符

文件的修改

# with open('test.py', 'r+', encoding='utf8') as fr:
#     fr.seek(0, 0)
#     data = fr.read()
#     print(data)
#     fr.seek(3, 0)
#     fr.write('干')

# 文件没有修改一说,只有覆盖


# 缓存文件的原理

# 同时打开多个文件
# with open('test.py', 'r', encoding='utf8') as fr, \
#         open('test_swap.py', 'w', encoding='utf8') as fw:
#     data = fr.read()
#     data = data.replace('sb', '傻逼')
#
#     fw.write(data)
#
# import os
#
# os.remove('test.py')
# os.rename('test_swap.py', 'test.py')

posted @ 2019-09-18 21:00 jzm1201 阅读(184) 评论(0) 收藏举报

刷新页面返回顶部

码苟jim

谢谢你这么好看还来看我的博客，你真是个有趣的soul