Articles of bigdata

Confusión en el hashing utilizado por LSH.

La matriz M es la matriz de firmas, que se produce a través de Minhashing de los datos reales, tiene documentos como columnas y palabras como filas. Así que una columna representa un documento. Ahora dice que cada franja ( b en número, r en longitud) tiene sus columnas con hash, de modo que una […]

Análisis de XML en Python para Big Data

Estoy tratando de analizar un archivo XML utilizando Python. Pero el problema es que el tamaño del archivo XML es de alrededor de 30 GB. Por lo tanto, está tomando horas para ejecutar: tree = ET.parse(‘Posts.xml’) En mi archivo XML, hay millones de elementos secundarios de la raíz. ¿Hay alguna manera de hacerlo más rápido? […]

PCA incremental en big data

Acabo de intentar usar el IncrementalPCA de sklearn.decomposition, pero antes lanzó un MemoryError como el PCA y el RandomizedPCA. Mi problema es que la matriz que estoy tratando de cargar es demasiado grande para caber en la memoria RAM. Ahora mismo está almacenado en una base de datos hdf5 como conjunto de datos de forma […]

¿Cómo manejar grandes cantidades de datos en tensorflow?

Para mi proyecto tengo grandes cantidades de datos, aproximadamente 60 GB distribuidos en archivos npy, cada uno con aproximadamente 1 GB, cada uno con aproximadamente 750.000 registros y tags. Cada registro es un 345 float32 y las tags son 5 float32. También leí la documentación del conjunto de datos de tensorflow y la documentación de […]

¿Es el KMeans de Spark incapaz de manejar bigdata?

KMeans tiene varios parámetros para su entrenamiento , con el modo de inicialización predeterminado a kmeans ||. El problema es que avanza rápidamente (menos de 10 minutos) a las primeras 13 etapas, pero luego se cuelga por completo , ¡sin producir un error! Ejemplo mínimo que reproduce el problema (tendrá éxito si uso 1000 puntos […]

¿Cómo crear un gran dataframe de pandas a partir de una consulta de SQL sin quedarse sin memoria?

Tengo problemas para consultar una tabla de> 5 millones de registros de mi base de datos de MS SQL Server. Quiero poder seleccionar todos los registros, pero mi código parece fallar al seleccionar muchos datos en la memoria. Esto funciona: import pandas.io.sql as psql sql = “SELECT TOP 1000000 * FROM MyTable” data = psql.read_frame(sql, […]

python: uso de estructuras pandas con csv grande (iteración y tamaño de bloque)

Tengo un archivo csv grande, alrededor de 600 mb con 11 millones de filas y quiero crear datos estadísticos como pivotes, histogtwigs, gráficos, etc. Obviamente, estoy intentando leerlo normalmente: df = pd.read_csv(‘Check400_900.csv’, sep=’\t’) no funciona, así que encontré iteración y tamaño grande en una publicación similar, así que utilicé df = pd.read_csv(‘Check1_900.csv’, sep=’\t’, iterator=True, chunksize=1000) […]

PySpark DataFrames: ¿una forma de enumerar sin convertir a Pandas?

Tengo un pyspark.sql.dataframe.DataFrame muy grande llamado df. Necesito alguna forma de enumerar los registros, por lo tanto, poder acceder a los registros con cierto índice. (o seleccione un grupo de registros con rango de índices) En pandas, podría hacer justo indexes=[2,3,6,7] df[indexes] Aquí quiero algo similar, (y sin convertir el dataframe en pandas) Lo más […]

Trabajando con big data en python y numpy, no hay suficiente ram, ¿cómo guardar resultados parciales en el disco?

Estoy tratando de implementar algoritmos para datos de 1000 dimensiones con 200k + puntos de datos en python. Quiero usar las bibliotecas numpy, scipy, sklearn, networkx y otras útiles. Quiero realizar operaciones como la distancia de pares entre todos los puntos y hacer agrupaciones en todos los puntos. He implementado algoritmos de trabajo que realizan […]