[爬虫]2.3.1 使用Python操作文件系统
Python提供了许多内置库来处理文件系统,如os
、shutil
和pathlib
等,这些库可以帮助你创建、删除、读取、写入文件和目录。
读取文件
在Python中,你可以使用内置的open
函数来打开一个文件。open
函数返回一个文件对象,你可以对这个对象进行各种操作。
以下是一个读取文件的例子:
with open('example.txt', 'r') as f:
content = f.read()
print(content)
open
函数的第一个参数是文件的路径,第二个参数是模式。在这个例子中,模式是'r',表示读取。
使用with
语句可以自动关闭文件,这是一个好习惯。
read
方法可以读取文件的全部内容。如果文件很大,你可能想要使用readline
或readlines
方法来分行读取。
写入文件
你也可以使用open
函数来写入文件。只需将模式改为'w'或'a'即可。'w'表示写入,如果文件已存在,它将被覆盖。'a'表示追加,如果文件已存在,新的内容将被添加到文件的末尾。
以下是一个写入文件的例子:
with open('example.txt', 'w') as f:
f.write('Hello, Python!')
write
方法可以将一个字符串写入文件。
操作目录
你可以使用os
库来操作目录。
例如,你可以创建一个新的目录:
import os
os.mkdir('example')
你也可以删除一个目录:
os.rmdir('example')
你可以获取当前的工作目录:
cwd = os.getcwd()
print(cwd)
你也可以改变工作目录:
os.chdir('/path/to/directory')
文件路径
在处理文件路径时,你可能会遇到许多问题,如路径分隔符在不同操作系统下的差异。为了解决这些问题,你可以使用os.path
或pathlib
库。
以下是一些常用的路径操作:
import os
# 连接路径
path = os.path.join('directory', 'file.txt')
# 分割路径
directory, file = os.path.split(path)
# 获取文件的扩展名
extension = os.path.splitext(file)[1]
# 检查文件或目录是否存在
exists = os.path.exists(path)
这就是Python处理文件系统的基本知识。现在,你可以尝试使用这些知识来存储你爬取的数据了。
推荐阅读: