Articles of hdf5

Actualice pandas DataFrame almacenado en una Pytable con otro pandas DataFrame

Estoy intentando crear una función que actualiza un DataFrame de pandas almacenado que he almacenado en una PyTable con datos nuevos de un DataFrame de pandas. Quiero verificar si faltan algunos datos en la PyTable para los Indices de fecha y hora específicos (el valor es NaN o hay una nueva marca de tiempo disponible), […]

Agrega una imagen raster a HDF5 usando h5py

Pido disculpas si esta es una especie de pregunta para principiantes, pero soy bastante nuevo en Python y HDF5. Estoy usando h5py, numpy y Python 2.7. Tengo datos de varios archivos que necesitan ser importados en un archivo HDF5. Los datos de cada archivo se almacenarán en un grupo diferente. Cada uno de estos grupos […]

que es más rápido para la carga: pickle o hdf5 en python

Dada es una lista de 1.5 Gb de marcos de datos de pandas. Me pregunto cuál es un mejor enfoque para manejar la carga de estos datos: pickle (a través de cPickle), hdf5, o alguna otra cosa en python? Primero, “descargar” los datos está bien si se demora, solo lo hago una vez. Tampoco me […]

Python pandas Leyendo valores específicos de archivos HDF5 usando read_hdf y HDFStore.select

Así que creé el archivo hdf5 con un conjunto de datos simple que se ve así. >>> pd.read_hdf(‘STORAGE2.h5’, ‘table’) AB 0 0 0 1 1 1 2 2 2 3 3 3 4 4 4 Usando este script import pandas as pd import scipy as sp from pandas.io.pytables import Term store = pd.HDFStore(‘STORAGE2.h5’) df_tl = […]

matplotlib – superficie 3d desde una matriz rectangular de alturas

Estoy tratando de trazar algunos datos HDF en matplotlib. Después de importarlos usando h5py, los datos se almacenan en una forma de matriz, como esta: array([[151, 176, 178], [121, 137, 130], [120, 125, 126]) En este caso, los valores de x e y son solo los índices de los campos de la matriz, mientras que […]

Trabajar con un conjunto de datos de 10 + GB en Python Pandas

Tengo un .csv muy grande (que originalmente provenía de un conjunto de datos SAS) que tiene las siguientes columnas: target_series metric_series month metric_1 metric_2 target_metric 1 1 1 #float #float #float 1 1 2 #float #float #float … 1 1 60 #float #float #float 1 2 1 #float #float #float 1 2 2 #float #float […]

Al leer un gran archivo HDF5 con “pandas.read_hdf ()”, ¿por qué sigo teniendo MemoryError aunque leo en trozos especificando chunksize?

Descripción del problema: Utilizo los pandas de Python para leer algunos archivos CSV grandes y almacenarlos en un archivo HDF5, el archivo HDF5 resultante es de aproximadamente 10 GB. El problema pasa al leerlo de nuevo. A pesar de que traté de leerlo de nuevo en trozos, todavía tengo MemoryError. Aquí es cómo creo el […]

¿Por qué los pandas y dask funcionan mejor cuando se importa desde CSV en comparación con HDF5?

Estoy trabajando con un sistema que actualmente funciona con archivos .csv grandes (> 5GB). Para boost el rendimiento, estoy probando (A) diferentes métodos para crear marcos de datos desde el disco (pandas VS dask ), así como (B) diferentes formas de almacenar resultados en el disco (archivos .csv VS hdf5 ). Para comparar el rendimiento, […]

leer columnas específicas del archivo hdf5 y pasar las condiciones

Quiero leer solo columnas específicas del archivo HDF5 y pasar las condiciones en esas columnas. Mi preocupación es que no quiero recuperar todos los archivos HDF5 como dataframe en la memoria. Quiero obtener solo las columnas necesarias con sus condiciones. columns=[‘col1’, ‘col2′] condition= “col2==1” groupname=’\path\to\group’ Hdf5File=os.path.join(‘path\to\hdf5.h5′) with pd.HDFStore(Hdf5File, mode=’r’, format=’table’) as store: if groupname in […]

Convertir csv grande a hdf5

Tengo un archivo csv de 100 M de línea (en realidad, muchos archivos csv separados) que totalizan 84 GB. Necesito convertirlo en un archivo HDF5 con un solo conjunto de datos flotante. Usé h5py en las pruebas sin ningún problema, pero ahora no puedo hacer el conjunto de datos final sin quedarme sin memoria. ¿Cómo […]