python爬虫开发与项目实践-学习笔记(一)
1、磁盘IO操作
文件的读写:
1)open函数使用一个文件名作为唯一的强制参数,然后返回一个文件对象。
>>> f=open(r'F:\projecttest\abc.txt')
2)文件模式。
一般文本文件处理,用不到b参数,但处理一些其他类似的文件(二进制文件),比如图像和MP3格式,增加b模式,这在爬虫处理媒体文件中很常用。参数rb可以用来读取一个二进制文件。
3)文件缓存区
4)文件读取
>>> f=open(r'F:\projecttest\abc.txt')
>>> f.read()
'cesjhi'
5)文件关闭
>>> f=open(r'F:\projecttest\abc.txt')
>>> f.read()
'cesjhi'
>>> f.close()
6)IO异常处理
try...finally实现
try:
f=open(r'F:\projecttest\abc.txt','r')
print(f.read())
finally:
if f:
f.close()
python简单实现方法,with替代try...finally与close
with open(r'F:\projecttest\abc.txt','r') as fileReader:
print(fileReader.read())
7)其他
大文件,防止内存不足,可反复调用read(size),一次最多读取size个字节
配置文件或者其他文本文件,可以采用按行读取readlines()
with open(r'F:\projecttest\abc.txt','r') as fileReader:
for line in fileReader.readlines():
print(line.strip)
8)文件写入
with open(r'F:\projecttest\abc.txt','w') as fileWriter:
fileWriter.write('ceshi') #w 去掉了原来的文本内容
with open(r'F:\projecttest\abc.txt','r') as fileReader:
print(fileReader.read())
with open(r'F:\projecttest\abc.txt','a') as fileWriter:
fileWriter.write('\nceshi')#a 追加
with open(r'F:\projecttest\abc.txt','r') as fileReader:
print(fileReader.read())