Articles of apache spark mllib

¿Cómo utilizar el clasificador spark Naive Bayes para la clasificación de texto con IDF?

Quiero convertir documentos de texto en vectores de características usando tf-idf, y luego entrenar un algoritmo de Bayes ingenuo para clasificarlos. Puedo cargar fácilmente mis archivos de texto sin las tags y usar HashingTF () para convertirlo en un vector, y luego usar IDF () para ponderar las palabras de acuerdo a lo importante que […]

Spark MLlib – advertencia de tren implícita

Sigo viendo estas advertencias cuando uso trainImplicit : WARN TaskSetManager: Stage 246 contains a task of very large size (208 KB). The maximum recommended task size is 100 KB. Y luego el tamaño de la tarea comienza a boost. Intenté llamar a repartition en el RDD de entrada pero las advertencias son las mismas. Todas […]

¿Cuál es la forma correcta de guardar \ cargar modelos en Spark \ PySpark?

Estoy trabajando con Spark 1.3.0 usando PySpark y MLlib y necesito guardar y cargar mis modelos. Uso código como este (tomado de la documentación oficial) from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating data = sc.textFile(“data/mllib/als/test.data”) ratings = data.map(lambda l: l.split(‘,’)).map(lambda l: Rating(int(l[0]), int(l[1]), float(l[2]))) rank = 10 numIterations = 20 model = ALS.train(ratings, rank, numIterations) testdata […]

PySpark: Calcular agrupado por AUC

Versión Spark: 1.6.0 Intenté calcular las AUC (área bajo ROC) agrupadas por el id campo. Teniendo en cuenta los siguientes datos: # Within each key-value pair # key is “id” # value is a list of (score, label) data = sc.parallelize( [(‘id1’, [(0.5, 1.0), (0.6, 0.0), (0.7, 1.0), (0.8, 0.0)), (‘id2’, [(0.5, 1.0), (0.6, 0.0), […]

¿Son compatibles las semillas aleatorias entre sistemas?

Hice un modelo de bosque aleatorio utilizando el paquete sklearn de python donde establecí el valor de inicialización, por ejemplo, en 1234 . Para la producción de modelos, utilizamos pyspark. Si tuviera que pasar los mismos hiperparmetros y el mismo valor de semilla, es decir, 1234 , ¿obtendré los mismos resultados? Básicamente, ¿los números de […]

¿Cómo agruparByKey un RDD, con DenseVector como clave, en Spark?

He creado un RDD con cada miembro siendo un par de valores clave, siendo la clave un DenseVector y un valor un int . p.ej [(DenseVector([3,4]),10), (DenseVector([3,4]),20)] Ahora quiero agrupar por la clave k1 : DenseVector([3,4]) . Espero que el comportamiento agrupe todos los valores de la clave k1 que son 10 y 20 . […]

pyspark: ml + streaming

Según Combining Spark Streaming + MLlib es posible hacer una predicción sobre un flujo de entrada en spark. El problema con el ejemplo dado (que funciona en mi clúster) es que testData es un derecho dado en el formato correcto. Estoy intentando configurar un cliente servidor tcp intercambio basado en cadenas de datos. No puedo […]

¿Cómo generar tuplas de (etiqueta original, etiqueta pronosticada) en Spark con MLlib?

Estoy tratando de hacer predicciones con el modelo que recibí de MLlib en Spark. El objective es generar tuplas de (orinalLabelInData, predictedLabel). Entonces esas tuplas se pueden usar para propósitos de evaluación de modelos. ¿Cuál es la mejor manera de lograr esto? Gracias. Suponiendo que parsedTrainData es un RDD de LabeledPoint from pyspark.mllib.regression import LabeledPoint […]

el uso de Word2VecModel.transform () no funciona en la función de mapa

He construido un modelo de Word2Vec usando Spark y lo guardo como modelo. Ahora, quiero usarlo en otro código como modelo fuera de línea. He cargado el modelo y lo he usado para presentar el vector de una palabra (por ejemplo, Hola) y funciona bien. Pero, necesito llamarlo para muchas palabras en un RDD usando […]

Guarde el modelo mllib de Apache Spark en python

Estoy tratando de guardar un modelo ajustado en un archivo en Spark. Tengo un clúster Spark que entrena un modelo RandomForest. Me gustaría guardar y reutilizar el modelo ajustado en otra máquina. Leí algunas publicaciones en la web que recomiendan realizar la serialización de Java. Estoy haciendo el equivalente en python pero no funciona. ¿Cuál […]