Articles of pytables

PyTables + Pandas Select Problems

Tengo un archivo HDF5 (PyTables) estructurado así: // ex: /Dan/A4N5 /Dan/B8P0 /Dave/D3Y7 Cada tabla está estructurada como tal con un sessionID y un tiempo almacenado en la época: sessionID time 0 3ODE3Nzll 1467590400 1 lMGVkMDc4 1467590400 2 jNzIzNmY1 1467590400 … Quiero que Pandas pase por cada tabla y obtenga todas las filas entre una fecha […]

Concatenar dos grandes pandas.HDFStore HDF5 archivos

Esta pregunta está relacionada de alguna manera con “Concatenar un gran número de archivos HDF5” . Tengo varios archivos HDF5 enormes (~ 20GB comprimidos), que no caben en la memoria RAM. Cada uno de ellos almacena varios pandas.DataFrame s de formato idéntico y con índices que no se superponen. Me gustaría concatenarlos para tener un […]

Cómo reconstruir eficientemente la tabla hdfstore de pandas cuando falla la aplicación

Estoy trabajando en utilizar el hdfstore en pandas para marcos de datos de un proceso iterativo en curso. En cada iteración, agrego a una tabla en el hdfstore. Aquí hay un ejemplo de juguete: import pandas as pd from pandas import HDFStore import numpy as np from random import choice from string import ascii_letters alphanum=np.array(list(ascii_letters)+range(0,9)) […]

Actualice pandas DataFrame almacenado en una Pytable con otro pandas DataFrame

Estoy intentando crear una función que actualiza un DataFrame de pandas almacenado que he almacenado en una PyTable con datos nuevos de un DataFrame de pandas. Quiero verificar si faltan algunos datos en la PyTable para los Indices de fecha y hora específicos (el valor es NaN o hay una nueva marca de tiempo disponible), […]

HDFStore: table.select y uso de RAM

Estoy tratando de seleccionar filas aleatorias de una tabla HDFStore de aproximadamente 1 GB. El uso de RAM explota cuando pido unas 50 filas aleatorias. Estoy usando pandas 0-11-dev, python 2.7, linux64 . En este primer caso, el uso de la RAM se ajusta al tamaño del chunk with pd.get_store(“train.h5”,’r’) as train: for chunk in […]

Construyendo una gran matriz numpy usando pytables

¿Cómo puedo crear una gran matriz numpy utilizando pytables. Intenté esto, pero me da el “ValueError: la matriz es demasiado grande”. error: import numpy as np import tables as tb ndim = 60000 h5file = tb.openFile(‘test.h5′, mode=’w’, title=”Test Array”) root = h5file.root h5file.createArray(root, “test”, np.zeros((ndim,ndim), dtype=float)) h5file.close()

Multiplicación de matrices utilizando hdf5.

Estoy tratando de multiplicar 2 matrices grandes con límite de memoria usando hdf5 (pytables) pero la función numpy.dot parece darme un error: Valueerror: la matriz es demasiado grande ¿Necesito realizar la multiplicación de matrices por mí mismo, quizás de forma bloque, o hay alguna otra función de python similar a numpy.dot? import numpy as np […]

Convertir csv grande a hdf5

Tengo un archivo csv de 100 M de línea (en realidad, muchos archivos csv separados) que totalizan 84 GB. Necesito convertirlo en un archivo HDF5 con un solo conjunto de datos flotante. Usé h5py en las pruebas sin ningún problema, pero ahora no puedo hacer el conjunto de datos final sin quedarme sin memoria. ¿Cómo […]

¿Por qué los pandas convierten int sin signo mayor que 2 ** 63-1 en objetos?

Cuando convierto una matriz numpy en un dataframe pandas, los pandas cambian los tipos uint64 a tipos de objetos si el número entero es mayor que 2 ^ 63 – 1. import pandas as pd import numpy as np x = np.array([(‘foo’, 2 ** 63)], dtype = np.dtype([(‘string’, np.str_, 3), (‘unsigned’, np.uint64)])) y = np.array([(‘foo’, […]

Escribiendo iterativamente a las tiendas HDF5 en Pandas

Pandas tiene los siguientes ejemplos sobre cómo almacenar Series , DataFrames y Panels en archivos HDF5: Preparar algunos datos: In [1142]: store = HDFStore(‘store.h5’) In [1143]: index = date_range(‘1/1/2000’, periods=8) In [1144]: s = Series(randn(5), index=[‘a’, ‘b’, ‘c’, ‘d’, ‘e’]) In [1145]: df = DataFrame(randn(8, 3), index=index, ……: columns=[‘A’, ‘B’, ‘C’]) ……: In [1146]: wp […]