加入收藏 | 设为首页 | 会员中心 | 我要投稿 开发网_郴州站长网 (http://www.0735zz.com/)- 云通信、区块链、物联设备、云计算、站长网!
当前位置: 首页 > 站长学院 > PHP教程 > 正文

Python操作HDF5文件代码实例

发布时间:2022-07-02 20:22:12 所属栏目:PHP教程 来源:互联网
导读:本篇文章小编给大家分享一下Python操作HDF5文件代码示例,文章代码介绍的很详细,小编觉得挺不错的,现在分享给大家供大家参考,有需要的小伙伴们可以来看看。 创建文件和数据集 使用`h5py.File()方法创建hdf5文件 ? 1 h5file = h5py.File(filename,w) 然
  本篇文章小编给大家分享一下Python操作HDF5文件代码示例,文章代码介绍的很详细,小编觉得挺不错的,现在分享给大家供大家参考,有需要的小伙伴们可以来看看。
 
  创建文件和数据集
 
  使用`h5py.File()方法创建hdf5文件
 
  ?
  1
  h5file = h5py.File(filename,'w')
  然后在此基础上创建数据集
 
  X = h5file.create_dataset(shape=(0,args.patch_size,args.patch_size),             #数据集的维度
                                maxshape = (None,args.patch_size,args.patch_size),                #数据集的允许最大维度 
                                dtype=float,compression='gzip',name='train',                      #数据类型、是否压缩,以及数据集的名字
                                chunks=(args.chunk_size,args.patch_size,args.patch_size))         #分块存储,每一分块的大小
  最为关系的两个参数为shape和maxshape,很显然我们希望数据集的某一个维度是可以扩展的,所以在maxshape中,将希望扩展的维度标记为None,其他维度和shape参数里面的一样。还有一点值得注意的是,使用compression='gzip'以后,整个数据集能够被极大的压缩,对比较大的数据集非常又用,并且在数据读写的时候,不用用户显式的解码。
 
  写数据集
 
  在使用上面的creat_dataset创建了dataset以后,读写数据集就如同读写numpy数组一样方便,比如上面的函数定义了数据集'train',也就是变量X以后,可以下面的方法来读写:
 
  ?
  1
  2
  data = np.zeros((100,args.patch_size,arg))
  X[0:100,:,:] = data
  在前面创建数据集的时候,我们定义shape = (args.chunk_size,args.patch_size,args.patch_size),如果有更多的数据,怎么办呢?
 
  可以使用resize方法来扩展在maxshape中定义为None的那个维度:
 
  ?
  1
  X.resize(X.shape[0]+args.chunk_size,axis=0)
  因为我们在maxshape=(None,args.patch_size,args.patch_size)中将第零个维度定义为可扩展,所以,首先我们用X.shape[0]来找到该维度的长度,并将其扩展。该维度扩展以后,就可以继续向里面写入数据了。
 
  读数据集
 
  读取h5文件的方法也非常简单,首先利用h5py.File方法打开对应的h5文件,然后将里面的某个数据集取出至变量,对这个变量的读取就如同numpy一样了。

  h = h5py.File(hd5file,'r')
  train = h['train']
  train[1]
  train[2]
  ...
  但是上面的读取方法存在一个问题就是每一次使用的时候(train[1],train[2])都需要从硬盘读取数据,这将会导致读取的速度比较慢。一个比较好的方法是,每次从硬盘读取一个chunk_size的数据,然后将这些数据存储到内存中,在需要的时候从内存中读取,比如使用下面的方法:

  h = h5py.File(hd5file,'r')
  train = h['train']
  X = train[0:100]         #一次从硬盘中读取比较多的数据,X将存储在内存中
  X[1]                     #从内存中读取
  X[2]                     #从内存中读取
  这样的方法就会快很多。

(编辑:开发网_郴州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读