Articles of pytables

Pandas _metadata de DataFrame persistencia error

Finalmente he descubierto cómo usar _metadata desde un DataFrame, todo funciona, excepto que no puedo conservarlo, como hdf5 o json. Sé que funciona porque copio los marcos y los atributos de _metadata sobre los atributos “no _metadata” no. ejemplo df = pandas.DataFrame #make up a frame to your liking pandas.DataFrame._metadata = [“testmeta”] df.testmeta = “testmetaval” […]

No se puede guardar DataFrame en HDF5 (“el mensaje del encabezado del objeto es demasiado grande”)

Tengo un DataFrame en Pandas: In [7]: my_df Out[7]: Int64Index: 34 entries, 0 to 0 Columns: 2661 entries, airplane to zoo dtypes: float64(2659), object(2) Cuando bash guardar esto en el disco: store = pd.HDFStore(p_full_h5) store.append(‘my_df’, my_df) Yo obtengo: File “H5A.c”, line 254, in H5Acreate2 unable to create attribute File “H5A.c”, line 503, in H5A_create unable […]

No se puede reinstalar PyTables para Python 2.7

Estoy instalando Python 2.7 además de 2.7. Al instalar PyTables nuevamente para 2.7, recibo este error: Se encontró el paquete numpy 1.5.1 instalado. .. ERROR :: No se pudo encontrar una instalación HDF5 local. Es posible que deba indicar explícitamente dónde se pueden encontrar los encabezados y la biblioteca de HDF5 locales configurando la variable […]

Guardando diccionarios en el archivo (compatible con numpy y Python 2/3)

Quiero hacer un almacenamiento jerárquico de clave-valor en Python, que básicamente se reduce a almacenar diccionarios en archivos. Con eso me refiero a cualquier tipo de estructura de diccionario, que puede contener otros diccionarios, matrices numpy, objetos de Python serializables, etc. No solo eso, quiero que almacene numerosos arrays optimizados para el espacio y que […]

Columnas de indexación y datos en Pandas / PyTables

http://pandas.pydata.org/pandas-docs/stable/io.html#indexing Estoy realmente confundido sobre este concepto de columnas de datos en Pandas HDF5 IO. Además, hay muy poca o ninguna información al respecto que se pueda encontrar en Google. Dado que me estoy sumergiendo en Pandas en un gran proyecto que involucra almacenamiento HDF5, me gustaría dejar claro estos conceptos. Los docs dicen: Puede […]

PyTables leer subconjunto aleatorio

¿Es posible leer un subconjunto aleatorio de filas de HDF5 (a través de pyTables o, preferiblemente pandas)? Tengo un conjunto de datos muy grande con millones de filas, pero solo necesito una muestra de unos pocos miles para el análisis. ¿Y qué pasa con la lectura de un archivo HDF comprimido?

Usando pytables, que es más eficiente: matriz densa scipy.sparse o numpy?

Al usar pytables , no hay soporte (por lo que puedo decir) para los formatos de matriz scipy.sparse , así que para almacenar una matriz tengo que hacer algunas conversiones, por ejemplo def store_sparse_matrix(self): grp1 = self.getFileHandle().createGroup(self.getGroup(), ‘M’) self.getFileHandle().createArray(grp1, ‘data’, M.tocsr().data) self.getFileHandle().createArray(grp1, ‘indptr’, M.tocsr().indptr) self.getFileHandle().createArray(grp1, ‘indices’, M.tocsr().indices) def get_sparse_matrix(self): return sparse.csr_matrix((self.getGroup().M.data, self.getGroup().M.indices, self.getGroup().M.indptr)) El problema […]

Cómo especificar min_itemsize para una columna de índice

No puedo especificar el tamaño mínimo para el índice en una operación de anexión de to_hdf. Min_itemsize funciona para las columnas de datos, entonces, ¿cómo puedo hacer que funcione para la columna de índice? Este código: from pandas import * df = DataFrame([‘1′,’2’],index=[‘a’,’b’]) df.index.name = ‘symbol’ df.to_hdf(“store.h5”,’df’,append = True,format=’table’,min_itemsize = { ‘symbol’ : 10} ) […]

TypeError: read_hdf () toma exactamente 2 argumentos (1 dado)

¿Cómo abrir un archivo HDF5 con pandas.read_hdf cuando no se conocen las claves? from pandas.io.pytables import read_hdf read_hdf(path_or_buf, key) pandas.__version__ == ‘0.14.1’ Aquí se desconoce el parámetro clave. Gracias

GIL para hilo IO limitado en extensión C (HDF5)

Tengo una aplicación de muestreo que adquiere 250,000 muestras por segundo, las almacena en la memoria y eventualmente se agrega a un HDFStore proporcionado por pandas . En general, esto es genial. Sin embargo, tengo un hilo que se ejecuta y vacía continuamente el dispositivo de adquisición de datos ( DAQ ) y necesita ejecutarse […]