Articles of apache spark mllib

¿Cómo generar tuplas de (etiqueta original, etiqueta pronosticada) en Spark con MLlib?

Estoy tratando de hacer predicciones con el modelo que recibí de MLlib en Spark. El objective es generar tuplas de (orinalLabelInData, predictedLabel). Entonces esas tuplas se pueden usar para propósitos de evaluación de modelos. ¿Cuál es la mejor manera de lograr esto? Gracias. Suponiendo que parsedTrainData es un RDD de LabeledPoint from pyspark.mllib.regression import LabeledPoint […]

el uso de Word2VecModel.transform () no funciona en la función de mapa

He construido un modelo de Word2Vec usando Spark y lo guardo como modelo. Ahora, quiero usarlo en otro código como modelo fuera de línea. He cargado el modelo y lo he usado para presentar el vector de una palabra (por ejemplo, Hola) y funciona bien. Pero, necesito llamarlo para muchas palabras en un RDD usando […]

Guarde el modelo mllib de Apache Spark en python

Estoy tratando de guardar un modelo ajustado en un archivo en Spark. Tengo un clúster Spark que entrena un modelo RandomForest. Me gustaría guardar y reutilizar el modelo ajustado en otra máquina. Leí algunas publicaciones en la web que recomiendan realizar la serialización de Java. Estoy haciendo el equivalente en python pero no funciona. ¿Cuál […]

Apache Spark: ¿Cómo crear una matriz a partir de un DataFrame?

Tengo un DataFrame en Apache Spark con una matriz de enteros, la fuente es un conjunto de imágenes. En última instancia, quiero hacer PCA, pero tengo problemas para crear una matriz a partir de mis arreglos. ¿Cómo creo una matriz a partir de un RDD? > imagerdd = traindf.map(lambda row: map(float, row.image)) > mat = […]

¿Cómo pasar params a un método ML Pipeline.fit?

Estoy tratando de construir un mecanismo de agrupamiento usando Google Dataproc + Spark Google Bigquery Crea un trabajo usando Spark ML KMeans + pipeline Como sigue: Crear una tabla de características basada en el nivel de usuario en bigquery Ejemplo: cómo se ve la tabla de características userid |x1 |x2 |x3 |x4 |x5 |x6 |x7 […]

Regresión lineal pyspark Ejemplo de documentación oficial: ¿malos resultados?

Estoy planeando usar la Regresión Lineal en Spark. Para comenzar, verifiqué el ejemplo en la documentación oficial ( que puede encontrar aquí ) También encontré esta pregunta en stackoverflow , que es esencialmente la misma pregunta que la mía. La respuesta sugiere ajustar el tamaño del paso, lo que también intenté hacer, sin embargo, los […]

Error al entrenar el modelo de regresión logística en Apache Spark. SPARK-5063

Estoy tratando de construir un modelo de regresión logística con Apache Spark. Aquí está el código. parsedData = raw_data.map(mapper) # mapper is a function that generates pair of label and feature vector as LabeledPoint object featureVectors = parsedData.map(lambda point: point.features) # get feature vectors from parsed data scaler = StandardScaler(True, True).fit(featureVectors) #this creates a standardization […]

¿Cómo guardar y cargar el modelo MLLib en Apache Spark?

Entrené un modelo de clasificación en Apache Spark (usando pyspark ). Guardé el modelo en un objeto, LogisticRegressionModel . Ahora, quiero hacer predicciones sobre nuevos datos. Me gustaría almacenar el modelo y leerlo nuevamente en un nuevo progtwig para hacer las predicciones. ¿Alguna idea de cómo almacenar el modelo? Estoy pensando en quizás pickle, pero […]

¿Cómo convertir ArrayType a DenseVector en PySpark DataFrame?

Recibo el siguiente error al intentar construir un Pipeline ML: pyspark.sql.utils.IllegalArgumentException: ‘requirement failed: Column features must be of type org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7 but was actually ArrayType(DoubleType,true).’ La columna Mis features contiene una matriz de valores de punto flotante. Parece que necesito convertirlos en algún tipo de vector (no es escaso, ¿es un DenseVector?). ¿Hay alguna forma de […]

Crear puntos etiquetados desde Spark DataFrame en Python

¿Qué función .map() en python utilizo para crear un conjunto de labeledPoints desde un labeledPoints de labeledPoints de chispa? ¿Cuál es la notación si la etiqueta / resultado no es la primera columna pero puedo referirme a su nombre de columna, ‘estado’? Creo el dataframe de Python con esta función .map (): def parsePoint(line): listmp […]