Python pandas库操作 excel
Python pandas库操作 excel
特别提示:
pandas 库是基于numpy库 的软件库,因此安装Pandas 之前需要先安装numpy库。默认的pandas不能直接读写excel文件,需要安装读、写库即xlrd、xlwt才可以实现xls后缀的excel文件的读写,要想正常读写xlsx后缀的excel文件,还需要安装openpyxl库 。
数据读取
import pandas as pd
file = r'D:/xxx/demo1.xlsx'
df = pd.read_excel(file)
print(df)
# read_excel()方法将Excel文件读取到pandas DataFrame中
数据处理
获取列数据
df['column_name']
获取多列
多列中,df[] 括号里边是一个列表
df[['columns_name1','columns_name2']]
获取行数据
其中,Line_number是行号,column_name是列名,可缺省,列名缺省获取整行
df.loc[Line_number, ['column_name']]
整体数据排序
df.sort_values(by='columns_name',ascending = False)
数据去重
Panda DataFrame 对象提供了一个数据去重的函数 drop_duplicates(),即从数据帧中删除重复项
df.drop_duplicates()
# keep='first'保留第一次出现
df.drop_duplicates(keep='first')
# subset='列名'去重指定列
df.drop_duplicates(subset='棒号属性')
# inplace=False 删除重复项后返回副本
df.drop_duplicates(inplace=False)
# inplace=True 直接在原数据上删除重复项
df.drop_duplicates(inplace=True)
保存到excel
to_excel()
import pandas as pd # 导入模块
data = { '姓名': ['赵', '钱', '孙'], '年龄': [21, 22, 13], '性别': ['男', '女', '男']}
df = pd.DataFrame(data)
df.to_excel(r'D:\xxx\demo2.xlsx',index=False)
缺省值填充 fillna()
单元格为空显示为NaN 为避免替换为空字符串
df = pd.read_excel(file)
df.fillna('', inplace=True)
或在read_excel()传参keep_default_na=False
df = pd.read_excel(file, keep_default_na=False)
作者:陈超
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!