我们谈到“文本处理”时,我们通常是指处理的内容。Python 将文本文件的内容读入可以操作的字符串变量非常容易。文件对象提供了三个“读”方法: .read()、.readline() 和 .readlines()。每种方法可以接受一个变量以限制每次读取的数据量,但它们通常不使用变量。 .read() 每次读取整个文件,它通常用于将文件内容放到一个字符串变量中。然而 .read() 生成文件内容最直接的字符串表示,但对于连续的面向行的处理,它却是不必要的,并且如果文件大于可用内存,则不可能实现这种处理。
.readline() 和 .readlines() 非常相似。它们都在类似于以下的结构中使用:
fh = open('c:\\autoexec.bat') for line in fh.readlines(): print line |
.readline() 和 .readlines() 之间的差异是后者一次读取整个文件,象 .read() 一样。.readlines() 自动将文件内容分析成一个行的列表,该列表可以由 Python 的 for ... in ... 结构进行处理。另一方面,.readline() 每次只读取一行,通常比 .readlines() 慢得多。仅当没有足够内存可以一次读取整个文件时,才应该使用 .readline()。
文件123内容
123
456
789
操作:
f = open('123','r')
line = f.readline()
print line[0] #1
print line[-1] #\n 回车
print[1,-1] #23,注意从1 到-1 但是不包括line[-1],而包括开始位置line[1]
注意:
f.readline()完成后最后一个字符是 ‘\n’,此时光标已经定位到了下一行的第0个位置
但是读第三行时 print line[-1]是9而不是'\n',因为此时最后一行不存在换行符
那么这样就好解决这个问题了:想在第一行后面加'hello',这样编程就错了:
f = open('123','r+')
f.readline()
f.seek(-1,1) #定位到\n前
f.write('hello')
f.close()
结果:
123
hello
789
没有在第一行写反到第二行了,这是因为原来的格局已定了,要想实现可以这样:
f = open('123','r+')
g = open('1234','w')
line = f.readline()
line = line[:-1] + ' hello\n'
g.write()
g.write(f.readline())
g.write(f.readline())
f.close()
g.close()
其中用到了几个技巧:
去除最后的回车键‘\n’
1.line = f.readline()
line = line[:-1]
2.字符串相加:
line += ' hello'