Pandas_HDF5
HDF5适用于处理不适合在内存中存储地超大型数据,可以使你高效读写大型数据的一小块。
1.Pandas使用HDFStore类来实现这一功能,类似字典一样的工作方式
import numpy as np df = pd.DataFrame({'a':np.random.randn(100)}) # 有100行 print(df.head()) # 看看前5行 print('*'*20) store = pd.HDFStore('mydata.h5')# 生成HDF5文件 store['obj1'] = df # 以类似字典的方式,向文件里写入内容 print(store) # 看看信息,在当前工作目录下,你可以找到这个文件 print('*'*20) print(store['obj1']) #像字典那样索引数据: store.close() # 关闭文件
运行结果:
a 0 -0.864068 1 -0.210785 2 -1.442705 3 -0.012885 4 0.039723 ******************** <class 'pandas.io.pytables.HDFStore'> File path: mydata.h5 ******************** a 0 -0.864068 1 -0.210785 2 -1.442705 3 -0.012885 4 0.039723 .. ... 95 -1.621428 96 1.552766 97 0.013647 98 1.109935 99 0.048601 [100 rows x 1 columns]
2.HDFStore支持两种工作模式,‘fixed’和‘table’。table的速度更慢,但支持一种类似数据库SQL语言的查询操作
store.put('obj2',df,format='table') # put是赋值的显式版本,允许我们设置其它选项 store.select('obj2', where=['index >=10 and index <= 15']) # 类似SQl语言的查询操作,要注意空格的位置 a 10 -1.430696 11 -0.616732 12 -0.643991 13 -0.004270 14 0.797136 15 -0.175095 store.close() # 关闭文件
tips:类似字典的工作方式就是fixed,它不支持where等sql语句
3.快捷方式
df.to_hdf('mydata.h5','obj2',format='table') pd.read_hdf('mydata.h5','obj2',where=['index<5'])
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 一个奇形怪状的面试题:Bean中的CHM要不要加volatile?
· [.NET]调用本地 Deepseek 模型
· 一个费力不讨好的项目,让我损失了近一半的绩效!
· 全网最简单!3分钟用满血DeepSeek R1开发一款AI智能客服,零代码轻松接入微信、公众号、小程
· .NET 10 首个预览版发布,跨平台开发与性能全面提升
· 《HelloGitHub》第 107 期
· 全程使用 AI 从 0 到 1 写了个小工具
· 从文本到图像:SSE 如何助力 AI 内容实时呈现?(Typescript篇)