Articles of apache spark mllib

¿Son compatibles las semillas aleatorias entre sistemas?

Hice un modelo de bosque aleatorio utilizando el paquete sklearn de python donde establecí el valor de inicialización, por ejemplo, en 1234 . Para la producción de modelos, utilizamos pyspark. Si tuviera que pasar los mismos hiperparmetros y el mismo valor de semilla, es decir, 1234 , ¿obtendré los mismos resultados? Básicamente, ¿los números de […]

¿Cómo agruparByKey un RDD, con DenseVector como clave, en Spark?

He creado un RDD con cada miembro siendo un par de valores clave, siendo la clave un DenseVector y un valor un int . p.ej [(DenseVector([3,4]),10), (DenseVector([3,4]),20)] Ahora quiero agrupar por la clave k1 : DenseVector([3,4]) . Espero que el comportamiento agrupe todos los valores de la clave k1 que son 10 y 20 . […]

pyspark: ml + streaming

Según Combining Spark Streaming + MLlib es posible hacer una predicción sobre un flujo de entrada en spark. El problema con el ejemplo dado (que funciona en mi clúster) es que testData es un derecho dado en el formato correcto. Estoy intentando configurar un cliente servidor tcp intercambio basado en cadenas de datos. No puedo […]

¿Cómo generar tuplas de (etiqueta original, etiqueta pronosticada) en Spark con MLlib?

Estoy tratando de hacer predicciones con el modelo que recibí de MLlib en Spark. El objective es generar tuplas de (orinalLabelInData, predictedLabel). Entonces esas tuplas se pueden usar para propósitos de evaluación de modelos. ¿Cuál es la mejor manera de lograr esto? Gracias. Suponiendo que parsedTrainData es un RDD de LabeledPoint from pyspark.mllib.regression import LabeledPoint […]

el uso de Word2VecModel.transform () no funciona en la función de mapa

He construido un modelo de Word2Vec usando Spark y lo guardo como modelo. Ahora, quiero usarlo en otro código como modelo fuera de línea. He cargado el modelo y lo he usado para presentar el vector de una palabra (por ejemplo, Hola) y funciona bien. Pero, necesito llamarlo para muchas palabras en un RDD usando […]

Guarde el modelo mllib de Apache Spark en python

Estoy tratando de guardar un modelo ajustado en un archivo en Spark. Tengo un clúster Spark que entrena un modelo RandomForest. Me gustaría guardar y reutilizar el modelo ajustado en otra máquina. Leí algunas publicaciones en la web que recomiendan realizar la serialización de Java. Estoy haciendo el equivalente en python pero no funciona. ¿Cuál […]

Apache Spark: ¿Cómo crear una matriz a partir de un DataFrame?

Tengo un DataFrame en Apache Spark con una matriz de enteros, la fuente es un conjunto de imágenes. En última instancia, quiero hacer PCA, pero tengo problemas para crear una matriz a partir de mis arreglos. ¿Cómo creo una matriz a partir de un RDD? > imagerdd = traindf.map(lambda row: map(float, row.image)) > mat = […]

¿Cómo pasar params a un método ML Pipeline.fit?

Estoy tratando de construir un mecanismo de agrupamiento usando Google Dataproc + Spark Google Bigquery Crea un trabajo usando Spark ML KMeans + pipeline Como sigue: Crear una tabla de características basada en el nivel de usuario en bigquery Ejemplo: cómo se ve la tabla de características userid |x1 |x2 |x3 |x4 |x5 |x6 |x7 […]

Regresión lineal pyspark Ejemplo de documentación oficial: ¿malos resultados?

Estoy planeando usar la Regresión Lineal en Spark. Para comenzar, verifiqué el ejemplo en la documentación oficial ( que puede encontrar aquí ) También encontré esta pregunta en stackoverflow , que es esencialmente la misma pregunta que la mía. La respuesta sugiere ajustar el tamaño del paso, lo que también intenté hacer, sin embargo, los […]

Error al entrenar el modelo de regresión logística en Apache Spark. SPARK-5063

Estoy tratando de construir un modelo de regresión logística con Apache Spark. Aquí está el código. parsedData = raw_data.map(mapper) # mapper is a function that generates pair of label and feature vector as LabeledPoint object featureVectors = parsedData.map(lambda point: point.features) # get feature vectors from parsed data scaler = StandardScaler(True, True).fit(featureVectors) #this creates a standardization […]