Pandas_HDF5

HDF5适用于处理不适合在内存中存储地超大型数据,可以使你高效读写大型数据的一小块。

1.Pandas使用HDFStore类来实现这一功能,类似字典一样的工作方式

复制代码
import numpy as np
df = pd.DataFrame({'a':np.random.randn(100)})  # 有100行

print(df.head()) # 看看前5行
print('*'*20)

store = pd.HDFStore('mydata.h5')# 生成HDF5文件
store['obj1'] = df  # 以类似字典的方式,向文件里写入内容
print(store)  # 看看信息,在当前工作目录下,你可以找到这个文件
print('*'*20)

print(store['obj1']) #像字典那样索引数据:
store.close() # 关闭文件
复制代码

运行结果:

复制代码
          a
0 -0.864068
1 -0.210785
2 -1.442705
3 -0.012885
4  0.039723
********************
<class 'pandas.io.pytables.HDFStore'>
File path: mydata.h5

********************
           a
0  -0.864068
1  -0.210785
2  -1.442705
3  -0.012885
4   0.039723
..       ...
95 -1.621428
96  1.552766
97  0.013647
98  1.109935
99  0.048601

[100 rows x 1 columns]
复制代码

 

2.HDFStore支持两种工作模式,‘fixed’和‘table’。table的速度更慢,但支持一种类似数据库SQL语言的查询操作

 

复制代码
store.put('obj2',df,format='table') # put是赋值的显式版本,允许我们设置其它选项

store.select('obj2', where=['index >=10 and index <= 15'])  # 类似SQl语言的查询操作,要注意空格的位置

           a
10 -1.430696
11 -0.616732
12 -0.643991
13 -0.004270
14  0.797136
15 -0.175095

store.close() # 关闭文件
复制代码

tips:类似字典的工作方式就是fixed,它不支持where等sql语句

3.快捷方式

df.to_hdf('mydata.h5','obj2',format='table')

pd.read_hdf('mydata.h5','obj2',where=['index<5'])

 

posted @   li-shan  阅读(428)  评论(0编辑  收藏  举报
编辑推荐:
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 一个奇形怪状的面试题:Bean中的CHM要不要加volatile?
· [.NET]调用本地 Deepseek 模型
· 一个费力不讨好的项目,让我损失了近一半的绩效!
阅读排行:
· 全网最简单!3分钟用满血DeepSeek R1开发一款AI智能客服,零代码轻松接入微信、公众号、小程
· .NET 10 首个预览版发布,跨平台开发与性能全面提升
· 《HelloGitHub》第 107 期
· 全程使用 AI 从 0 到 1 写了个小工具
· 从文本到图像:SSE 如何助力 AI 内容实时呈现?(Typescript篇)
点击右上角即可分享
微信分享提示