文件及编码

文件

标签（空格分隔）： python文件

读和写文件

file 对象使用 open 函数来创建。
open() 将会返回一个 file 对象，基本语法格式如下:

open(filename, mode)

filename：filename 变量是一个包含了你要访问的文件名称的字符串值。
mode：mode决定了打开文件的模式：只读，写入，追加等。所有可取值见如下的完全列表。这个参数是非强制的，默认文件访问模式为只读(r)。

不同模式打开文件的完全列表：

模式	描述
r	以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。
rb	以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式。
r+	打开一个文件用于读写。文件指针将会放在文件的开头。
rb+	以二进制格式打开一个文件用于读写。文件指针将会放在文件的开头。
w	打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。
wb	以二进制格式打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。
w+	打开一个文件用于读写。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。
wb+	以二进制格式打开一个文件用于读写。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。
a	打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。
ab	以二进制格式打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。
a+	打开一个文件用于读写。如果该文件已存在，文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在，创建新文件用于读写。
ab+	以二进制格式打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。如果该文件不存在，创建新文件用于读写。

文件对象的方法

f.write()
f.write(string) 将 string 写入到文件中, 然后返回写入的字符数。

f = open("file_test",'r+',encoding='utf-8') #文件句柄
f.write ("i couldn't make the color match today\n")
print (f.write ("i don't know what else to say"))

f.read()

为了读取一个文件的内容，调用 f.read(size), 这将读取一定数目的数据, 然后作为字符串或字节对象返回。

size 是一个可选的数字类型的参数。当 size 被忽略了或者为负, 那么该文件的所有内容都将被读取并且返回。

f = open("file_test",'r',encoding='utf-8') #文件句柄
data = f.read()
data2 = f.read()
print (data)
print ('---data2---',data2) #思考输出是否和data一致

f.readlines()
f.readlines() 会从文件中读取单独的一行。换行符为 '\n'。f.readline() 如果返回一个空字符串, 说明已经已经读取到最后一行。

f = open("file_test",'r',encoding='utf-8')
for index,line in enumerate(f.readlines()):
    if index == 4:
        print ('---------------')
        continue
    print (line.strip())

上面循环方式会把文件内容全部读到内存当中，

#高效的循环
f = open("file_test",'r',encoding='utf-8')
count = 0
for line in f:
    if count == 4:
        print ('----------')
        count += 1
        contine
    print (line)
    count += 1

f.tell()

f.tell() 返回文件对象当前所处的位置, 它是从文件开头开始算起的字节数。

f.seek()

如果要改变文件当前的位置, 可以使用 f.seek(offset, from_what) 函数。
from_what 的值, 如果是 0 表示开头, 如果是 1 表示当前位置, 2 表示文件的结尾，例如：

seek(x,0) ：从起始位置即文件首行首字符开始移动 x 个字符

seek(x,1) ：表示从当前位置往后移动x个字符

seek(-x,2)：表示从文件的结尾往前移动x个字符

from_what 值为默认为0，即文件开头。下面给出一个完整的例子：

print (f.tell()) 
print (f.readline())
print (f.tell())
f.seek(0)
print (f.readline())

其它函数

print (f.encoding)
print (f.fileno())
print (f.name) #打印文件名
print (f.flush()) #刷新文件内部缓冲，直接把内部缓冲区的数据立刻写入文件, 而不是被动的等待输出缓冲区写入。
print (f.truncate(10)) #截取文件，截取的字节通过size指定，默认为当前文件位置。

#进度条
import sys,time

for i in range(20):
    sys.stdout.write("#")
    sys.stdout.flush()
    time.sleep(0.2)

#文件修改
f = open ("file_test","r",encoding="utf-8")
f_new = open ("file_test.bak","w",encoding="utf-8")

for line in f:
    if "what else to say" in line:
        line = line.replace("what else to say","what else to fuck")
    f_new.write(line)
f.close()
f_new.close()

with语句
为了避免打开文件后忘记关闭，可以通过管理上下文，即：

with open("file_test","r",encoding="utf-8") as f,\
    open ("file_test","r",encoding="utf-8") as f2:
    for line in f:
        print (line)

如此方式，当with代码块执行完毕时，内不会自动关闭并释放文件资源。
在Python2.7后，with又支持同时对多个文件的上下文进行管理。

字符编码与转码

需知:

在python2默认编码是ASCII, python3里默认是unicode

unicode 分为 utf-32(占4个字节),utf-16(占两个字节)，utf-8(占1-4个字节)，所以utf-16就是现在最常用的unicode版本，不过在文件里存的还是utf-8，因为utf8省空间

在py3中encode,在转码的同时还会把string变成bytes类型，decode在解码的同时还会把bytes变回string

#-*- coding:gbk -*-

s = "你好"
print (s.encode("gbk"))
print (s.encode("utf-8"))
print (s.encode("utf-8").decode("utf-8").encode("gb2312").decode("gb2312"))

posted @ 2017-05-02 00:54 frui 阅读(329) 评论(0) 收藏举报

刷新页面返回顶部

frui

文件及编码

文件

读和写文件

文件对象的方法

字符编码与转码

公告