CSV文件存储

CSV 文件存储

　　CSV，全称为 Comma-Separated Values，中文可以叫作逗号分隔值或字符分隔值，其文件以纯文本形式存储表格数据。该文件是一个字符序列，可以由任意数目的记录组成，记录间以某种换行符分隔。每条记录由若干字段组成，字段间的分隔符是其他字符或字符串，最常见的是逗号或制表符。不过所有记录都有完全相同的字段序列，相当于一个结构化表的纯文本形式。它比 Excel 文件更加简洁，XLS 文本是电子表格，包含文本、数值、公式和格式等内容，而 CSV 中不包含这些内容，就是特定字符分隔的纯文本，结构简单清晰。所以，有时候用 CSV 来保存数据是比较方便的。本节时 Python 读取和写入 CSV 文件的过程。

写入

例子：

import csv

with open('data.csv', 'w') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['id', 'name', 'age'])
    writer.writerow(['10001', 'Mike', 20])
    writer.writerow(['10002', 'Bob', 22])
    writer.writerow(['10003', 'Jordan', 21])

　　打开 data.csv 文件，然后指定打开的模式为 w（即写入），获得文件句柄，随后调用 csv 库的 writer 方法初始化写入对象，传入该句柄，然后调用 writerow 方法传入每行的数据即可完成写入。

　　运行结束后，会生成一个名为 data.csv 的文件，此时数据就成功写入了。直接以文本形式打开的话，其内容如下：

id,name,age

10001,Mike,20

10002,Bob,22

10003,Jordan,21

　　写入的文本默认以逗号分隔，调用一次 writerow 方法即可写入一行数据。用 Excel 打开的结果如图所示。

　　如果想修改列与列之间的分隔符，可以传入 delimiter 参数，其代码如下：

import csv

with open('data.csv', 'w') as csvfile:
    writer = csv.writer(csvfile, delimiter=' ')
    writer.writerow(['id', 'name', 'age'])
    writer.writerow(['10001', 'Mike', 20])
    writer.writerow(['10002', 'Bob', 22])
    writer.writerow(['10003', 'Jordan', 21])

这里在初始化写入对象时传入 delimiter 为空格，此时输出结果的每一列就是以空格分隔了，内容如下：

id name age

10001 Mike 20

10002 Bob 22

10003 Jordan 21

　　也可以调用 writerows 方法同时写入多行，此时参数就需要为二维列表，例如：

import csv

with open('data.csv', 'w') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['id', 'name', 'age'])
    writer.writerows([['10001', 'Mike', 20], ['10002', 'Bob', 22], ['10003', 'Jordan', 21]])

输出效果是相同，内容如下：

id,name,age

10001,Mike,20

10002,Bob,22

10003,Jordan,21

　　但是一般情况下，爬虫爬取的都是结构化数据，一般会用字典来表示。在 csv 库中也提供了字典的写入方式，示例如下：

import csv

with open('data.csv', 'w') as csvfile:
    fieldnames = ['id', 'name', 'age']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
    writer.writeheader()
    writer.writerow({'id': '10001', 'name': 'Mike', 'age': 20})
    writer.writerow({'id': '10002', 'name': 'Bob', 'age': 22})
    writer.writerow({'id': '10003', 'name': 'Jordan', 'age': 21})

　　先定义 3 个字段，用 fieldnames 表示，然后将其传给 DictWriter 来初始化一个字典写入对象，接着可以调用 writeheader 方法先写入头信息，然后再调用 writerow 方法传入相应字典即可。最终写入的结果是完全相同的，内容如下：

id,name,age

10001,Mike,20

10002,Bob,22

10003,Jordan,21

　　这样就可以完成字典到 CSV 文件的写入了。

　　如果想追加写入的话，可以修改文件的打开模式，即将 open 函数的第二个参数改成 a，代码如下：

import csv  

with open('data.csv', 'a') as csvfile:  
    fieldnames = ['id', 'name', 'age']  
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)  
    writer.writerow({'id': '10004', 'name': 'Durant', 'age': 22})

　　在上面的基础上再执行这段代码，文件内容便会变成：

id,name,age

10001,Mike,20

10002,Bob,22

10003,Jordan,21

10004,Durant,22

　　数据被追加写入到文件中。

　　如果要写入中文内容的话，可能会遇到字符编码的问题，此时需要给 open 参数指定编码格式。例如，这里再写入一行包含中文的数据，代码需要改写如下：

import csv

with open('data.csv', 'a', encoding='utf-8') as csvfile:
    fieldnames = ['id', 'name', 'age']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
    writer.writerow({'id': '10004', 'name': '李四', 'age': 22})

　　需要给 open 函数指定编码，否则可能发生编码错误。

　　如果接触过 pandas 等库的话，可以调用 DataFrame 对象的 to_csv 方法来将数据写入 CSV 文件中。

　　安装pandas库，安装命令：

pip3 install pandas

　　安装完之后，便可以使用pandas库将数据保存为CSV文件：

import pandas as pd

data = [
    {'id': '10001', 'name': 'Mike', 'age': 20},
    {'id': '10002', 'name': 'Fsdf', 'age': 22},
    {'id': '10003', 'name': 'Sdfs', 'age': 23}
]

df = pd.DataFrame(data)
df.to_csv('data.csv', index=False)

　　定义几条数据，每条数据都是一个字典，然后将其组成一个列表，赋值为data。紧接着使用pandas的DataFrame类新建了一个DataFrame对象，参数传入data，并把该对象赋值为df。最后调用df的to_csv方法也可以将数据保存为CSV对象。

读取

　　可以使用 csv 库来读取 CSV 文件。例如，将刚才写入的文件内容读取出来，相关代码如下：

import csv

with open('data.csv', 'r', encoding='utf-8') as csvfile:
    reader = csv.reader(csvfile)
    for row in reader:
        print(row)

运行结果：

['id', 'name', 'age']  
['10001', 'Mike', '20']  
['10002', 'Bob', '22']  
['10003', 'Jordan', '21']  
['10004', 'Durant', '22']  
['10005', ' 李四 ', '22']

　　这里构造的是 Reader 对象，通过遍历输出了每行的内容，每一行都是一个列表形式。注意，如果 CSV 文件中包含中文的话，还需要指定文件编码。

　　也可以使用pandas 的 read_csv 方法将数据从 CSV 中读取出来，例如：

import pandas as pd

df = pd.read_csv('data.csv')
print(df)

运行结果：

      id  name  age
0  10001  Mike   20
1  10002  Fsdf   22
2  10003  Sdfs   23

　　这里的df实际上是一个DataFrame对象，如果对此比较熟悉，可以直接使用它完成一些数据的分析处理。

　　如果只想读取文件里面的数据，可以吧df再进一步转换为列表或元组：

import pandas as pd

df = pd.read_csv('data.csv')
data = df.values.tolist()
print(data)

　　这里调用了df的values属性，再调用tolist方法，即可将数据转化为列表形式，运行结果：

[[10001, 'Mike', 20], [10002, 'Fsdf', 22], [10003, 'Sdfs', 23]]

　　若直接对df进行遍历，同样能得到列表类型的结果：

import pandas as pd

df = pd.read_csv('data.csv')
for index, row in df.iterrows():
    print(row.tolist())

运行结果：

[10001, 'Mike', 20]
[10002, 'Fsdf', 22]
[10003, 'Sdfs', 23]

posted @ 2024-06-09 21:51 JJJhr 阅读(39) 评论(0) 编辑收藏举报

刷新页面返回顶部

JJJhr'blog

CSV文件存储

CSV 文件存储

写入

读取

公告