python pandas 读写csv excel

在Python的数据科学和爬虫开发中，pandas是一个非常常用的库，因为它提供了各种操作数据的函数和方法。其中，pandas可以非常方便地处理CSV和Excel文件。

CSV文件操作

CSV（Comma Separated Values）是文本文件格式之一，通常用于存储和交换表格数据。pandas库中read_csv()函数可以方便地读取CSV文件，并将其转换成DataFrame数据结构，我们可以使用各种方法对其进行处理和分析。

首先，我们使用如下代码将CSV文件读入pandas中：

import pandas as pd
data = pd.read_csv('data.csv', encoding = 'utf-8')
其中，data.csv是CSV文件的地址，encoding = 'utf-8'是告诉pandas此文件编码为UTF-8。读取CSV文件之后，我们可以使用data.head()方法来查看文件的前5行，并使用data.info()方法查看数据框的信息，例如列名、数据类型等等。

接下来，我们可以使用各种pandas的DataFrame方法来对数据框进行处理。例如，我们可以使用data.dropna()方法来删除空值、使用data.drop_duplicates()方法来删除重复值、使用data.groupby()方法来对数据框进行分组统计等等，这些方法都可以非常方便地帮助我们进行数据处理。

最后，我们使用to_csv()方法将数据框保存为CSV文件：

data.to_csv('new_data.csv', encoding = 'utf-8', index = False)
其中，new_data.csv是保存的文件名，index = False表示不保存行索引，只保存数据。

Excel文件操作

Excel文件也是一种非常常见的文件格式，它通常用于存储和交换各种表格数据。pandas库中read_excel()方法可以方便地读取Excel文件。

首先，我们使用如下代码将Excel文件读入pandas中：

import pandas as pd
data = pd.read_excel('data.xlsx', 'Sheet1')
其中，data.xlsx是Excel文件的地址，Sheet1是要读取的表格名称。读取Excel文件之后，可以使用data.head()方法和data.info()方法查看数据框的信息。

同样地，我们可以使用各种pandas的DataFrame方法来对数据框进行处理。例如，我们可以使用data.dropna()方法来删除空值、使用data.drop_duplicates()方法来删除重复值、使用data.groupby()方法来对数据框进行分组统计等等，这些方法都可以非常方便地帮助我们进行数据处理。

最后，我们使用to_excel()方法将数据框保存为Excel文件：

data.to_excel('new_data.xlsx', sheet_name = 'Sheet1', index = False)
其中，new_data.xlsx是保存的文件名，sheet_name = 'Sheet1'表示保存到Excel文件中的表格名称，index = False表示不保存行索引，只保存数据。

总结

pandas库在处理CSV和Excel文件时可以使数据处理更加方便和高效。我们可以使用read_csv()方法和read_excel()方法来读取CSV和Excel文件，并使用各种pandas的DataFrame方法对数据框进行处理和分析。最后，我们可以使用to_csv()方法和to_excel()方法将数据框保存到CSV和Excel文件中。如果您是一个数据科学家或爬虫开发者，学习pandas库可以大大提高工作效率。

posted @ 2023-08-28 10:50 myrj 阅读(198) 评论(0) 收藏举报

刷新页面返回顶部

myrj

python pandas 读写csv excel

公告