Articles of bigdata

RDD solo tiene el valor de la primera columna: Hbase, PySpark

Estamos leyendo una tabla de Hbase con Pyspark usando los siguientes comandos. from pyspark.sql.types import * host= port= keyConv = “org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter” valueConv = “org.apache.spark.examples.pythonconverters.HBaseResultToStringConverter” cmdata_conf = {“hbase.zookeeper.property.clientPort”:port, “hbase.zookeeper.quorum”: host, “hbase.mapreduce.inputtable”: “CMData”, “hbase.mapreduce.scan.columns”: “info:Tenure info:Age”} cmdata_rdd = sc.newAPIHadoopRDD(“org.apache.hadoop.hbase.mapreduce.TableInputFormat”,”org.apache.hadoop.hbase.io.ImmutableBytesWritable”,”org.apache.hadoop.hbase.client.Result”,keyConverter=keyConv,valueConverter=valueConv,conf=cmdata_conf) output = cmdata_rdd.collect() output Estoy obteniendo el resultado de la siguiente manera. (Clave y Edad) [(u’123′, u’5′), (u’234′, […]

Mini entrenamiento de lotes de un clasificador scikit-learn donde proporciono los mini lotes

Tengo un conjunto de datos muy grande que no se puede cargar en la memoria. Quiero usar este conjunto de datos como conjunto de entrenamiento de un clasificador scikit-learn, por ejemplo, un LogisticRegression . ¿Existe la posibilidad de realizar un mini entrenamiento de lotes de un clasificador de scikit-learn donde ofrezco los mini lotes?

NumPy archivo de lectura con líneas de filtrado sobre la marcha

Tengo una gran variedad de números escritos en un archivo CSV y necesito cargar solo una porción de esa matriz. Conceptualmente, quiero llamar a np.genfromtxt() y luego cortar en fila la matriz resultante, pero El archivo es tan grande que puede que no encaje en la memoria RAM. el número de filas relevantes puede ser […]

¿Adición básica en tensorflow?

Quiero hacer un progtwig en el que ingrese un conjunto de x1 x2 y produzca una y. Todos los tutoriales de flujo tensor que puedo encontrar comienzan con el reconocimiento de imágenes. ¿Puede alguien ayudarme proporcionándome un código o un tutorial sobre cómo hacer esto en Python? gracias por adelantado. editar: las coordenadas x1 x2 […]

ordenar datos de texto grandes

Tengo un archivo grande (100 millones de líneas de valores separados por tabuladores, de aproximadamente 1,5 GB de tamaño). ¿Cuál es la forma más rápida conocida de ordenar esto en función de uno de los campos? He intentado la hive. Me gustaría ver si esto se puede hacer más rápido usando python.

Multiplicación de matrices utilizando hdf5.

Estoy tratando de multiplicar 2 matrices grandes con límite de memoria usando hdf5 (pytables) pero la función numpy.dot parece darme un error: Valueerror: la matriz es demasiado grande ¿Necesito realizar la multiplicación de matrices por mí mismo, quizás de forma bloque, o hay alguna otra función de python similar a numpy.dot? import numpy as np […]

¿Cómo funciona la función pyspark mapPartitions?

Así que estoy tratando de aprender Spark usando Python (Pyspark). Quiero saber cómo funciona la función mapPartitions . Eso es lo que toma la entrada y la salida que da. No pude encontrar ningún ejemplo adecuado de internet. Digamos que tengo un objeto RDD que contiene listas, como a continuación. [ [1, 2, 3], [3, […]

Extienda la máscara numpy por n celdas a la derecha para cada valor incorrecto, de manera eficiente

Digamos que tengo una matriz de longitud 30 con 4 valores incorrectos en ella. Quiero crear una máscara para esos valores incorrectos, pero dado que usaré funciones de ventana móvil, también me gustaría que un número fijo de índices subsiguientes después de cada valor malo se marque como malo. En el siguiente, n = 3: […]

Django + Postgres + Series Grandes de Tiempo

Estoy explorando un proyecto con datos de series de tiempo grandes, en su mayoría no comprimibles, y me pregunto si Django + Postgres con SQL en bruto es la decisión correcta. Tengo datos de series de tiempo que son ~ 2K objetos / hora, cada hora. Esto es alrededor de 2 millones de filas por […]

Confusión en el hashing utilizado por LSH.

La matriz M es la matriz de firmas, que se produce a través de Minhashing de los datos reales, tiene documentos como columnas y palabras como filas. Así que una columna representa un documento. Ahora dice que cada franja ( b en número, r en longitud) tiene sus columnas con hash, de modo que una […]