Articles of pytables

Pandas pytable: cómo especificar min_itemsize de los elementos de un MultiIndex

Estoy almacenando un dataframe de pandas como un pytable que contiene un MultiIndex. El primer nivel del MultiIndex es una cadena que corresponde a un ID de usuario. Ahora, la mayoría de los ID de usuario tienen una longitud de 13 caracteres, pero algunos de ellos tienen una longitud de 15 caracteres. Cuando agrego un […]

Problema para insertar utilizando psycopg

Estoy leyendo datos de un archivo .mat utilizando el módulo Pytables. Después de leer los datos, quiero insertar estos datos en la base de datos usando psycopg. Aquí hay una pieza de código de muestra: file = tables.openFile(matFile) x = 0 #populate the matData list for var in dest: data = file.getNode(‘/’ + var)[:] matData.append(data) […]

Fusionar dos tablas con millones de filas en Python

Estoy usando Python para algunos análisis de datos. Tengo dos tablas, la primera (llamémosla ‘A’) tiene 10 millones de filas y 10 columnas y la segunda (‘B’) tiene 73 millones de filas y 2 columnas. Tienen 1 columna con identificadores comunes y quiero intersecar las dos tablas basadas en esa columna. En particular quiero la […]

Python: ¿cómo almacenar una matriz multidimensional numpy en PyTables?

¿Cómo puedo poner una matriz multidimensional numpy en un archivo HDF5 usando PyTables? Por lo que puedo decir, no puedo poner un campo de matriz en una tabla de pytables. También necesito almacenar algo de información sobre esta matriz y poder realizar cálculos matemáticos en ella. ¿Alguna sugerencia?

HDF5 tomando más espacio que CSV?

Considere el siguiente ejemplo: Preparar los datos: import string import random import pandas as pd matrix = np.random.random((100, 3000)) my_cols = [random.choice(string.ascii_uppercase) for x in range(matrix.shape[1])] mydf = pd.DataFrame(matrix, columns=my_cols) mydf[‘something’] = ‘hello_world’ Establezca la compresión más alta posible para HDF5: store = pd.HDFStore(‘myfile.h5′,complevel=9, complib=’bzip2’) store[‘mydf’] = mydf store.close() Guardar también en CSV: mydf.to_csv(‘myfile.csv’, sep=’:’) […]

¿Consulta de Pandas “Agrupar por” en datos grandes en HDFStore?

Tengo alrededor de 7 millones de filas en un HDFStore con más de 60 columnas. Los datos son más de lo que puedo guardar en la memoria. Estoy buscando agregar los datos en grupos según el valor de una columna “A”. La documentación para la división / agregación / combinación de pandas asume que ya […]

¿Cómo debo usar h5py lib para almacenar datos de series de tiempo?

Tengo algunos datos de series de tiempo que previamente almacené como archivos pytables usando pytables . Recientemente he intentado almacenar lo mismo con h5py lib. Sin embargo, dado que todos los elementos de la matriz numpy tienen que ser del mismo tipo de letra, debo convertir la fecha (que generalmente es el índice) en el […]