h5py文件写入之——flush和update

技术背景

在前面的一篇博客中，我们介绍过使用VMD可视化H5MD标准化格式的轨迹文件的方法。H5MD本质上就是一个有规范格式的hdf5二进制文件，本文主要介绍两个关于hdf5的内容更新操作。

写入和更新数据

我们通常使用到的一个功能就是，通过h5py.File函数来打开或者创建一个hdf5文件，然后用create_dataset在文件中创建表单，再持续的向表单中填写数据。那么如果要更新文件中的数据怎么办呢？操作逻辑是比较简单的，直接加载对应的表单并获取返回值，然后直接在返回值中更新数据内容即可。如下是一个代码示例：

import h5py  
import numpy as np  
import os

h5_name = 'example.h5'
if os.path.exists(h5_name):
    with h5py.File('example.h5', 'r+') as file:  
        dataset = file['my_dataset']  
        new_data = np.random.rand(dataset.shape[0])
        dataset[...] = new_data

else:
    # 创建一个新的HDF5文件  
    with h5py.File(h5_name, 'w') as f:  
        dset = f.create_dataset("my_dataset", (10,), dtype='f')  
        data = np.arange(10)  
        dset[...] = data

这个代码分成了两个部分，如果在指定的目录下不存在这个hdf5文件，我们就首先创建一个hdf5文件，表单内容为1~10的数字（这里使用了一个VSCode中的插件加H5Web来对h5文件进行可视化）：

如果在路径下已经存在对应的h5文件，则修改其中的表单内容。例如我们把上述的测试代码执行两次，那么我们得到的h5文件内容是这样的：

刷新文件

hdf5文件作为一个规范格式的二进制文件，有严格的完整性校验。那么就会产生一个问题，如果在写入的过程中进程被中断，那么这个hdf5文件就会损坏：

当然，如果是Ctrl+C手动停止进程，那我们是可以参考这篇博客的内容进行终止信号的监听和管理的。但问题是如果被系统kill -9强行终止，是没办法捕获相关信号的。所以这里有一个方案，是通过flush，对中间过程进行保存，案例如下：

import h5py  
import numpy as np  
import time

h5_name = 'example.h5'
# 创建一个新的HDF5文件  
with h5py.File(h5_name, 'w') as f:  
    dset = f.create_dataset("my_dataset", (10,), dtype='f')  
    data = np.arange(10)  
    dset[...] = data 
    new_data = np.random.rand(dset.shape[0])
    f.flush()
    time.sleep(30)
    dset[...] = new_data

这个案例中我们sleep了30秒的时间，在这个期间内我们会在系统中kill -9把这个Python进程杀死。如果没有加上f.flush()这一行，就会出现上面那张图中的报错，意味着这个hdf5文件是损坏的。如果加上了这一行代码，那效果如下：