Estoy haciendo un módulo de cálculo en tiempo real basado en memoria de “Big data” utilizando el módulo Pandas del entorno Python. Entonces, el tiempo de respuesta es la calidad de este módulo y es muy crítico e importante. Para procesar grandes conjuntos de datos, divido los datos y proceso los datos de subdivisión en […]
df = df.groupby(df.index).sum() Tengo un dataframe con 3.8 millones de filas (una sola columna), y estoy tratando de agruparlos por índice. Pero lleva una eternidad terminar el cómputo. ¿Hay formas alternativas de tratar con un conjunto de datos muy grande? ¡¡¡¡Gracias por adelantado!!!! Estoy escribiendo en Python. Los datos se ven como abajo. El índice […]
Para almacenar gran matriz en el disco utilizo numpy.memmap. Aquí hay un código de ejemplo para probar la multiplicación de matrices grandes: import numpy as np import time rows= 10000 # it can be large for example 1kk cols= 1000 #create some data in memory data = np.arange(rows*cols, dtype=’float32′) data.resize((rows,cols)) #create file on disk fp0 […]
Estoy buscando soluciones para acelerar una función que he escrito para recorrer un dataframe de pandas y comparar valores de columna entre la fila actual y la fila anterior. Como ejemplo, esta es una versión simplificada de mi problema: User Time Col1 newcol1 newcol2 newcol3 newcol4 0 1 6 [cat, dog, goat] 0 0 0 […]
He sido usuario de R desde hace mucho tiempo y recientemente comencé a trabajar con Python. Al usar sistemas RDBMS convencionales para el almacenamiento de datos, y R / Python para procesar números, siento la necesidad de ensuciarme las manos con Big Data Analysis. Me gustaría saber cómo empezar con el procesamiento de Big Data. […]
Por ejemplo tenemos el siguiente texto: “Spark es un marco para escribir progtwigs rápidos y distribuidos. Spark resuelve problemas similares a los que hace Hadoop MapReduce, pero con un enfoque rápido en memoria y una API de estilo funcional limpio. …” Necesito todas las secciones posibles de este texto, respectivamente, para una palabra por una […]
Tengo un archivo csv que es demasiado grande para cargarlo en la memoria. Necesito eliminar filas duplicadas del archivo. Así que sigo esta manera: chunker = pd.read_table(AUTHORS_PATH, names=[‘Author ID’, ‘Author name’], encoding=’utf-8′, chunksize=10000000) for chunk in chunker: chunk.drop_duplicates([‘Author ID’]) Pero si las filas duplicadas se distribuyen en partes diferentes, parece que el script anterior no […]
Tengo un archivo CSV muy grande (decenas de Gigas) que contiene registros web con las siguientes columnas: user_id , time_stamp , category_clicked . Tengo que crear un anotador para identificar qué categorías les gustan o no a los usuarios. Tenga en cuenta que tengo más de 10 millones de usuarios. Primero lo corté en trozos […]
Tengo un archivo csv muy grande (cerca de un Terabyte) que quiero dividir en archivos csv más pequeños, según la información de cada fila. Ya que no hay forma de hacerlo en la memoria, mi enfoque previsto era leer cada línea, decidir en qué archivo debería ir y agregarla allí. Sin embargo, esto lleva mucho […]
Tengo un conjunto de n (~ 1000000) cadenas (secuencias de ADN) almacenadas en una lista trans. Tengo que encontrar la distancia mínima de hamming de todas las secuencias en la lista. Implementé un algoritmo de fuerza bruta ingenuo, que se ha estado ejecutando durante más de un día y aún no ha dado una solución. […]