Articles of bigdata

¿Hay una buena manera de evitar la copia profunda de la memoria o de reducir el tiempo empleado en el multiprocesamiento?

Estoy haciendo un módulo de cálculo en tiempo real basado en memoria de “Big data” utilizando el módulo Pandas del entorno Python. Entonces, el tiempo de respuesta es la calidad de este módulo y es muy crítico e importante. Para procesar grandes conjuntos de datos, divido los datos y proceso los datos de subdivisión en […]

Pandas: df.groupby () es demasiado lento para el conjunto de datos grandes. ¿Algún método alternativo?

df = df.groupby(df.index).sum() Tengo un dataframe con 3.8 millones de filas (una sola columna), y estoy tratando de agruparlos por índice. Pero lleva una eternidad terminar el cómputo. ¿Hay formas alternativas de tratar con un conjunto de datos muy grande? ¡¡¡¡Gracias por adelantado!!!! Estoy escribiendo en Python. Los datos se ven como abajo. El índice […]

Numpy eficiente gran matriz de multiplicación

Para almacenar gran matriz en el disco utilizo numpy.memmap. Aquí hay un código de ejemplo para probar la multiplicación de matrices grandes: import numpy as np import time rows= 10000 # it can be large for example 1kk cols= 1000 #create some data in memory data = np.arange(rows*cols, dtype=’float32′) data.resize((rows,cols)) #create file on disk fp0 […]

La forma más rápida de comparar la fila y la fila anterior en el dataframe de pandas con millones de filas

Estoy buscando soluciones para acelerar una función que he escrito para recorrer un dataframe de pandas y comparar valores de columna entre la fila actual y la fila anterior. Como ejemplo, esta es una versión simplificada de mi problema: User Time Col1 newcol1 newcol2 newcol3 newcol4 0 1 6 [cat, dog, goat] 0 0 0 […]

Cómo empezar con Big Data Analysis

He sido usuario de R desde hace mucho tiempo y recientemente comencé a trabajar con Python. Al usar sistemas RDBMS convencionales para el almacenamiento de datos, y R / Python para procesar números, siento la necesidad de ensuciarme las manos con Big Data Analysis. Me gustaría saber cómo empezar con el procesamiento de Big Data. […]

extrayendo n gramos de un gran texto

Por ejemplo tenemos el siguiente texto: “Spark es un marco para escribir progtwigs rápidos y distribuidos. Spark resuelve problemas similares a los que hace Hadoop MapReduce, pero con un enfoque rápido en memoria y una API de estilo funcional limpio. …” Necesito todas las secciones posibles de este texto, respectivamente, para una palabra por una […]

¿Cómo eliminar filas duplicadas usando pandas en un archivo de datos grandes?

Tengo un archivo csv que es demasiado grande para cargarlo en la memoria. Necesito eliminar filas duplicadas del archivo. Así que sigo esta manera: chunker = pd.read_table(AUTHORS_PATH, names=[‘Author ID’, ‘Author name’], encoding=’utf-8′, chunksize=10000000) for chunk in chunker: chunk.drop_duplicates([‘Author ID’]) Pero si las filas duplicadas se distribuyen en partes diferentes, parece que el script anterior no […]

Problemas con grouby en millones de claves en un archivo fragmentado en pandas python

Tengo un archivo CSV muy grande (decenas de Gigas) que contiene registros web con las siguientes columnas: user_id , time_stamp , category_clicked . Tengo que crear un anotador para identificar qué categorías les gustan o no a los usuarios. Tenga en cuenta que tengo más de 10 millones de usuarios. Primero lo corté en trozos […]

Dividir archivos realmente grandes en archivos más pequeños en Python – Demasiados archivos abiertos

Tengo un archivo csv muy grande (cerca de un Terabyte) que quiero dividir en archivos csv más pequeños, según la información de cada fila. Ya que no hay forma de hacerlo en la memoria, mi enfoque previsto era leer cada línea, decidir en qué archivo debería ir y agregarla allí. Sin embargo, esto lleva mucho […]

Encontrar la distancia mínima de hamming de un conjunto de cuerdas en python

Tengo un conjunto de n (~ 1000000) cadenas (secuencias de ADN) almacenadas en una lista trans. Tengo que encontrar la distancia mínima de hamming de todas las secuencias en la lista. Implementé un algoritmo de fuerza bruta ingenuo, que se ha estado ejecutando durante más de un día y aún no ha dado una solución. […]