プログラミングの助け、質問への回答 / Python / PythonでHDF5コンパイルdtype配列を読み込む高速な方法は何ですか？ - Python、配列、numpy、h5py

PythonでHDF5コンパイルdtype配列を読み込む高速な方法は何ですか？ - Python、配列、numpy、h5py

私は20のデータセットを持つHDF5ファイルを持っており、それぞれに200行の複合dtype ("<r4", "<r4", "<i4") ここで、dtypeの各構成要素は、a1-D変数。私は、各ファイルを開き、独自の変数に列のコンポーネントを割り当てるのに約2秒かかることがわかりました。これは私にとっては非常に遅いようです。私はh5pyとnumpyを使用してファイルを開いて、numpy配列に読み込みます：

import numpy as np
import h5py
...
f = h5py.File("foo.hdf5", "r")
set1 = f["foo/bar"]
var1 = np.asarray([row[0] for row in set1])
var2 = np.asarray([row[1] for row in set1])
var3 = np.asarray([row[2] for row in set1])

これらのデータセットから変数を抽出するより速い方法がありますか？

hdfviewを使ったデータセットのスクリーンショットです： hdfview

回答：

回答№1の場合は3

はるかに高速な方法（〜0.05秒）は、データセットを配列に変換し、フィールドを名前で参照することです。

import numpy as np
import h5py
...
f = h5py.File("foo.hdf5", "r")
set1 = np.asarray(f["foo/bar"])
var1 = set1["var1"]
var2 = set1["var2"]
var3 = set1["var3"]

Pythonで行列の大きな行列を作成するには？ - python、numpy、行列、hdf5、pytables

Pythonでは、キー列で2つの配列を結合するにはどうすればよいですか？ - Python、配列、numpy

混合データを使って2D配列を読み込む - python、numpy

Python 2.7用のPyTablesを再インストールできません - python、hdf5、pytables

HDF5ファイルからデータセット属性を削除する - python、hdf5、h5py、hdf

タイプ.hdf5のオブジェクトの特定のタイプを作成するには？ - python、mongodb、hdf5、h5py

H5PY / Numpy - numpy配列の内部形状を設定する（h5py用） - python、numpy、h5py

なぜ、Pythonでデータを保存/読み込むのがmatlabよりも多くのスペース/時間を要するのですか？ - python、matlab、file-io、numpy、mat-file

オブジェクトの配列の数が少ない場合のnumpy配列作成プロトコルを抑制する - python、numpy、h5py

h5pyを使って大きなhdf5データセットを書く - python、numpy、hdf5、h5py

Pythonのnumpy配列を.matファイルに書き出す - Python、配列、matlab、numpy、辞書

MATLAB R2011bとPython（Windows 7）間でデータをやりとりします - Python、Matlab、Python-2.7、パラメータ渡し、言語相互運用性