IO编程

文件读写、StringIO/BytesIO、操作文件和目录、序列化

IO编程

IO在计算机中指Input/Output，也就是输入和输出。

由于程序和运行时数据是在内存中驻留，由CPU这个超快的计算核心来执行，涉及到数据交换的地方，通常是磁盘、网络等，就需要IO接口。

从磁盘读取文件到内存，就只有Input操作，反过来，把数据写到磁盘文件里，就只是一个Output操作。

由于CPU和内存的速度远远高于外设的速度，所以，在IO编程中，就存在速度严重不匹配的问题。

　　举个例子来说，比如要把100M的数据写入磁盘，CPU输出100M的数据只需要0.01秒，可是磁盘要接收这100M数据可能需要10秒，怎么办呢？有两种办法：

CPU等着，也就是程序暂停执行后续代码，等100M的数据在10秒后写入磁盘，再接着往下执行，这种模式称为同步IO
CPU不等待，只是告诉磁盘，“您老慢慢写，不着急，我接着干别的事去了”，于是，后续代码可以立刻接着执行，这种模式称为异步IO

　　同步和异步的区别：在于是否等待IO执行的结果。异步IO来编写程序性能会远远高于同步IO，但是异步IO的缺点是编程模型复杂.

文件读写

读写文件是最常见的IO操作。Python内置了读写文件的函数，用法和C是兼容的。

读写文件就是请求操作系统打开一个文件对象（通常称为文件描述符），然后，通过操作系统提供的接口从这个文件对象中读取数据（读文件），或者把数据写入这个文件对象（写文件）

从文件中读取数据

　　读取整个文件

　　读取文件，需要一个包含几行文本的文件

    #pi_digits.txt
    3.1415926535
    8979323846
    2643383279
    ######################
    with open('pi_digits.txt') as file_object:
        contents = file_object.read()
        print(contents)

　　函数open() 接受一个参数：要打开的文件的名称。

　　　　Python在当前执行的文件所在的目录中查找指定的文件，函数open() 返回一个表示文件的对象，Python将这个对象存储在我们将在后面使用的变量中。

　　关键字with 在不再需要访问文件后将其关闭

　　　　程序中调用了open() ，但没有调用close() ；调用open() 和close() 来打开和关闭文件，如果程序存在bug，导致close() 语句未执行，文件将不会关闭。未妥善地关闭文件可能会导致数据丢失或受损。如果在程序中过早地调用close() ，需要使用文件时它已关闭（无法访问），会导致更多的错误。

　　　　关键字with只管打开文件，并在需要时使用它，Python自会在合适的时候自动将其关闭。

　　函数read() 读取这个文件的全部内容，并将其作为一个长长的字符串存储在变量中。

　　　　相比于原始文件，该输出不同的地方是末尾多了一个空行。read() 到达文件末尾时返回一个空字符串，而将这个空字符串显示出来时就是一个空行。要删除多出来的空行，可在print 语句中使用rstrip().

　　　　调用read()会一次性读取文件的全部内容，如果文件有10G，内存就爆了，所以，要保险起见，调用readline()可以每次读取一行内容，

　　　　不能确定文件大小：调用read(size)方法，每次最多读取size个字节的内容。

　　　　配置文件：调用readlines()一次读取所有内容并按行返回list。

　　　　因此，要根据需要决定怎么调用。　　

　　file-like object：像open()函数返回的这种有个read()方法的对象，在Python中统称为file-like Object。

　　除了file外，还可以是内存的字节流，网络流，自定义流等等。file-like Object不要求从特定类继承，只要写个read()方法就行。

　　StringIO就是在内存中创建的file-like Object，常用作临时缓冲。

　　　　二进制文件：前面讲的默认都是读取文本文件，并且是UTF-8编码的文本文件。要读取二进制文件，比如图片、视频等等，用'rb'模式打开文件即可

　　　　字符编码：要读取非UTF-8编码的文本文件，需要给open()函数传入encoding参数（参数：传入读取编码文件）

　　　　　　遇到有些编码不规范的文件，你可能会遇到UnicodeDecodeError，因为在文本文件中可能夹杂了一些非法编码的字符。此时open()函数还接收一个errors参数，表示如果遇到编码错误后如何处理。最简单的方式是直接忽略ignore.

　　文件路径

　　程序文件存储在文件夹x中，而在文件夹x中，有一个名为files的文件夹，用于存储程序文件操作的文本文件。使用相对文件路径来打开该文件夹中的文件。相对文件路径让Python到指定的位置去查找，而该位置是相对于当前运行的程序所在目录的('files\filename.txt')。

　　Windows系统中，在文件路径中使用反斜杠（\ ）而不是斜杠（/ ）

　　在相对文件路径行不通时，可使用绝对文件路径，绝对路径通常比相对路径更长，因此将其存储在一个变量中，再将该变量传递给open() 会有所帮助。

　　通过使用绝对路径，可读取系统任何地方的文件。就目前而言，最简单的做法是，要么将数据文件存储在程序文件所在的目录，要么将其存储在程序文件所在目录下的一个文件夹（如files）中。

　　逐行读取

　　读取文件时，常常需要检查其中的每一行：你可能要在文件中查找特定的信息，或者要以某种方式修改文件中的文本。

　　创建一个包含文件各行内容的列表

　　使用关键字with 时，open() 返回的文件对象只在with 代码块内可用。

　　如果要在with 代码块外访问文件的内容，可在with 代码块内将文件的各行存储在一个列表中，并在with 代码块外使用该列表：你可以立即处理文件的各个部分，也可推迟到程序后面再处理。

　　使用文件内容

　　将文件读取到内存中后，就可以以任何方式使用这些数据了.　

    filename = 'pi_digits.txt'
 
    with open(filename) as file_object:
        lines = file_object.readlines()
 
    pi_string = ''
    for line in lines:
        pi_string += line.strip()  #变量pi_string存储的字符串中，包含原来位于每行左边的空格，为删除这些空格，可使用strip()
 
    print(pi_string)
    print(len(pi_string))

　　注意：

　　　　读取文本文件时，Python将其中的所有文本都解读为字符串。

　　　　如果你读取的是数字，并要将其作为数值使用，就必须使用函数int() 将其转换为整数，或使用函数float() 将其转换为浮点数。

　　包含一百万位的大型文件

　　对于你可处理的数据量，Python没有任何限制；只要系统的内存足够多，你想处理多少数据都可以。

　　写入文件

    filename = 'programming.txt'
     
    with open(filename, 'w') as file_object:
        file_object.write("I love programming.\n")
        file_object.write("I love creating new games.")#像显示到终端的输出一样，还可以使用空格、制表符和空行来设置这些输出的格式。

　　保存数据的最简单的方式之一是将其写入到文件中

　　写入空文件

　　要将文本写入文件，你在调用open() 时需要提供另一个实参，告诉Python你要写入打开的文件。

　　传入标志符 'w'：文本文件；或者'wb'：写二进制文件

　　读取模式（'r' ）、写入模式（'w' ）、附加模式（'a' ）或让你能够读取和写入文件的模式（'r+' ）。如果省略了模式实参，Python将以默认的只读模式打开文件。

　　如果要写入的文件不存在，函数open() 将自动创建它。

　　然而，以写入（'w' ）模式打开文件时，如果指定的文件已经存在，Python将在返回文件对象前清空该文件。

　　注意:

　　　　Python只能将字符串写入文本文件。要将数值数据存储到文本文件中，必须先使用函数str() 将其转换为字符串格式

　　附加到文件（a）

　　如果你要给文件添加内容，而不是覆盖原有的内容，可以附加模式打开文件。

　　以附加模式打开文件时，Python不会在返回文件对象前清空文件，而你写入到文件的行都将添加到文件末尾。如果指定的文件不存在，Python将为你创建一个空文件。

StringIO

很多时候，数据读写不一定是文件，也可以在内存中读写。StringIO顾名思义就是在内存中读写str。要把str写入StringIO，我们需要先创建一个StringIO，然后，像文件一样写入即可：

>>> from io import StringIO
>>> f = StringIO()
>>> f.write('hello')
5
>>> f.write(' ')
1
>>> f.write('world!')
6
>>> print(f.getvalue())
hello world!

　　getvalue()方法用于获得写入后的str。

　　要读取StringIO，可以用一个str初始化StringIO，然后，像读文件一样读取

BytesIO

BytesIO实现了在内存中读写bytes，我们创建一个BytesIO，然后写入一些bytes：写入的不是str，而是经过UTF-8编码的bytes。

>>> from io import BytesIO
>>> f = BytesIO()
>>> f.write('中文'.encode('utf-8'))
6
>>> print(f.getvalue())
b'\xe4\xb8\xad\xe6\x96\x87'

　　一样，可以用一个bytes初始化BytesIO，然后，像读文件一样读取.

StringIO和BytesIO是在内存中操作str和bytes的方法，使得和读写文件具有一致的接口。

操作文件和目录

操作文件和目录的函数一部分放在os模块中，一部分放在os.path模块中，这一点要注意一下。查看、创建和删除目录可以这么调用：

# 查看当前目录的绝对路径:
>>> os.path.abspath('.')
'/Users/michael'
# 在某个目录下创建一个新目录，首先把新目录的完整路径表示出来:
>>> os.path.join('/Users/michael', 'testdir')
'/Users/michael/testdir'
# 然后创建一个目录:
>>> os.mkdir('/Users/michael/testdir')
# 删掉一个目录:
>>> os.rmdir('/Users/michael/testdir')

把两个路径合成一个时，不要直接拼字符串，而要通过os.path.join()函数，这样可以正确处理不同操作系统的路径分隔符。

同样的道理，要拆分路径时，也不要直接去拆字符串，而要通过os.path.split()函数，这样可以把一个路径拆分为两部分，后一部分总是最后级别的目录或文件名.

os.path.splitext()可以直接让你得到文件扩展名，很多时候非常方便.

这些合并、拆分路径的函数并不要求目录和文件要真实存在，它们只对字符串进行操作。

复制文件的函数在os模块中不存在！原因是复制文件并非由操作系统提供的系统调用。但是shutil模块提供了copyfile()的函数，你还可以在shutil模块中找到很多实用函数，它们可以看做是os模块的补充。

序列化

变量从内存中变成可存储或传输的过程称之为序列化，在Python中叫pickling

序列化之后，就可以把序列化后的内容写入磁盘，或者通过网络传输到别的机器上。

反过来，把变量内容从序列化的对象重新读到内存里称之为反序列化，即unpickling。Python提供了pickle模块来实现序列化。

序列化模块：https://www.cnblogs.com/jjb1997/articles/11256991.html

原文链接：https://blog.csdn.net/u012084802/article/details/79464205

posted @ 2019-08-18 21:21 JamJarBranch 阅读(229) 评论(0) 收藏举报

刷新页面返回顶部

JamJarBranch

IO编程

文件读写、StringIO/BytesIO、操作文件和目录、序列化

IO编程

文件读写

从文件中读取数据

读取整个文件

写入文件

StringIO

BytesIO

操作文件和目录

公告

　　读取整个文件

　　写入文件