Articles of bigdata

¿Cómo eliminar filas duplicadas usando pandas en un archivo de datos grandes?

Tengo un archivo csv que es demasiado grande para cargarlo en la memoria. Necesito eliminar filas duplicadas del archivo. Así que sigo esta manera: chunker = pd.read_table(AUTHORS_PATH, names=[‘Author ID’, ‘Author name’], encoding=’utf-8′, chunksize=10000000) for chunk in chunker: chunk.drop_duplicates([‘Author ID’]) Pero si las filas duplicadas se distribuyen en partes diferentes, parece que el script anterior no […]

Problemas con grouby en millones de claves en un archivo fragmentado en pandas python

Tengo un archivo CSV muy grande (decenas de Gigas) que contiene registros web con las siguientes columnas: user_id , time_stamp , category_clicked . Tengo que crear un anotador para identificar qué categorías les gustan o no a los usuarios. Tenga en cuenta que tengo más de 10 millones de usuarios. Primero lo corté en trozos […]

Dividir archivos realmente grandes en archivos más pequeños en Python – Demasiados archivos abiertos

Tengo un archivo csv muy grande (cerca de un Terabyte) que quiero dividir en archivos csv más pequeños, según la información de cada fila. Ya que no hay forma de hacerlo en la memoria, mi enfoque previsto era leer cada línea, decidir en qué archivo debería ir y agregarla allí. Sin embargo, esto lleva mucho […]

Encontrar la distancia mínima de hamming de un conjunto de cuerdas en python

Tengo un conjunto de n (~ 1000000) cadenas (secuencias de ADN) almacenadas en una lista trans. Tengo que encontrar la distancia mínima de hamming de todas las secuencias en la lista. Implementé un algoritmo de fuerza bruta ingenuo, que se ha estado ejecutando durante más de un día y aún no ha dado una solución. […]

¿Qué función en la chispa se utiliza para combinar dos RDD por teclas?

Digamos que tengo los siguientes dos RDD, con los siguientes valores de par de claves. rdd1 = [ (key1, [value1, value2]), (key2, [value3, value4]) ] y rdd2 = [ (key1, [value5, value6]), (key2, [value7]) ] Ahora, quiero unirlos por valores clave, por ejemplo, quiero devolver lo siguiente ret = [ (key1, [value1, value2, value5, value6]), […]

RDD solo tiene el valor de la primera columna: Hbase, PySpark

Estamos leyendo una tabla de Hbase con Pyspark usando los siguientes comandos. from pyspark.sql.types import * host= port= keyConv = “org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter” valueConv = “org.apache.spark.examples.pythonconverters.HBaseResultToStringConverter” cmdata_conf = {“hbase.zookeeper.property.clientPort”:port, “hbase.zookeeper.quorum”: host, “hbase.mapreduce.inputtable”: “CMData”, “hbase.mapreduce.scan.columns”: “info:Tenure info:Age”} cmdata_rdd = sc.newAPIHadoopRDD(“org.apache.hadoop.hbase.mapreduce.TableInputFormat”,”org.apache.hadoop.hbase.io.ImmutableBytesWritable”,”org.apache.hadoop.hbase.client.Result”,keyConverter=keyConv,valueConverter=valueConv,conf=cmdata_conf) output = cmdata_rdd.collect() output Estoy obteniendo el resultado de la siguiente manera. (Clave y Edad) [(u’123′, u’5′), (u’234′, […]

Mini entrenamiento de lotes de un clasificador scikit-learn donde proporciono los mini lotes

Tengo un conjunto de datos muy grande que no se puede cargar en la memoria. Quiero usar este conjunto de datos como conjunto de entrenamiento de un clasificador scikit-learn, por ejemplo, un LogisticRegression . ¿Existe la posibilidad de realizar un mini entrenamiento de lotes de un clasificador de scikit-learn donde ofrezco los mini lotes?

NumPy archivo de lectura con líneas de filtrado sobre la marcha

Tengo una gran variedad de números escritos en un archivo CSV y necesito cargar solo una porción de esa matriz. Conceptualmente, quiero llamar a np.genfromtxt() y luego cortar en fila la matriz resultante, pero El archivo es tan grande que puede que no encaje en la memoria RAM. el número de filas relevantes puede ser […]

¿Adición básica en tensorflow?

Quiero hacer un progtwig en el que ingrese un conjunto de x1 x2 y produzca una y. Todos los tutoriales de flujo tensor que puedo encontrar comienzan con el reconocimiento de imágenes. ¿Puede alguien ayudarme proporcionándome un código o un tutorial sobre cómo hacer esto en Python? gracias por adelantado. editar: las coordenadas x1 x2 […]

ordenar datos de texto grandes

Tengo un archivo grande (100 millones de líneas de valores separados por tabuladores, de aproximadamente 1,5 GB de tamaño). ¿Cuál es la forma más rápida conocida de ordenar esto en función de uno de los campos? He intentado la hive. Me gustaría ver si esto se puede hacer más rápido usando python.