Articles of apache spark mllib

Unir dos tuberías de mllib Spark juntos

Tengo dos DataFrames separados, cada uno de los cuales tiene varias etapas de procesamiento diferentes que mllib transformadores mllib en una tubería para manejar. Ahora quiero unir estas dos tuberías, manteniendo las características (columnas) de cada DataFrame . Scikit-learn tiene la clase FeatureUnion para manejar esto, y parece que no puedo encontrar un equivalente para […]

Apache Spark ALS: cómo realizar recomendaciones en vivo / usuario anónimo plegable

Estoy utilizando Apache Spark (API Pyspark para Python) ALS MLLIB para desarrollar un servicio que realice recomendaciones en vivo para usuarios anónimos (usuarios que no están en el conjunto de capacitación) en mi sitio. En mi caso de uso, capacito al modelo en las calificaciones de los usuarios de esta manera: from pyspark.mllib.recommendation import ALS, […]

¿Cómo utilizar el clasificador spark Naive Bayes para la clasificación de texto con IDF?

Quiero convertir documentos de texto en vectores de características usando tf-idf, y luego entrenar un algoritmo de Bayes ingenuo para clasificarlos. Puedo cargar fácilmente mis archivos de texto sin las tags y usar HashingTF () para convertirlo en un vector, y luego usar IDF () para ponderar las palabras de acuerdo a lo importante que […]

Spark MLlib – advertencia de tren implícita

Sigo viendo estas advertencias cuando uso trainImplicit : WARN TaskSetManager: Stage 246 contains a task of very large size (208 KB). The maximum recommended task size is 100 KB. Y luego el tamaño de la tarea comienza a boost. Intenté llamar a repartition en el RDD de entrada pero las advertencias son las mismas. Todas […]

¿Cuál es la forma correcta de guardar \ cargar modelos en Spark \ PySpark?

Estoy trabajando con Spark 1.3.0 usando PySpark y MLlib y necesito guardar y cargar mis modelos. Uso código como este (tomado de la documentación oficial) from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating data = sc.textFile(“data/mllib/als/test.data”) ratings = data.map(lambda l: l.split(‘,’)).map(lambda l: Rating(int(l[0]), int(l[1]), float(l[2]))) rank = 10 numIterations = 20 model = ALS.train(ratings, rank, numIterations) testdata […]

PySpark: Calcular agrupado por AUC

Versión Spark: 1.6.0 Intenté calcular las AUC (área bajo ROC) agrupadas por el id campo. Teniendo en cuenta los siguientes datos: # Within each key-value pair # key is “id” # value is a list of (score, label) data = sc.parallelize( [(‘id1’, [(0.5, 1.0), (0.6, 0.0), (0.7, 1.0), (0.8, 0.0)), (‘id2’, [(0.5, 1.0), (0.6, 0.0), […]

¿Son compatibles las semillas aleatorias entre sistemas?

Hice un modelo de bosque aleatorio utilizando el paquete sklearn de python donde establecí el valor de inicialización, por ejemplo, en 1234 . Para la producción de modelos, utilizamos pyspark. Si tuviera que pasar los mismos hiperparmetros y el mismo valor de semilla, es decir, 1234 , ¿obtendré los mismos resultados? Básicamente, ¿los números de […]

¿Cómo agruparByKey un RDD, con DenseVector como clave, en Spark?

He creado un RDD con cada miembro siendo un par de valores clave, siendo la clave un DenseVector y un valor un int . p.ej [(DenseVector([3,4]),10), (DenseVector([3,4]),20)] Ahora quiero agrupar por la clave k1 : DenseVector([3,4]) . Espero que el comportamiento agrupe todos los valores de la clave k1 que son 10 y 20 . […]

pyspark: ml + streaming

Según Combining Spark Streaming + MLlib es posible hacer una predicción sobre un flujo de entrada en spark. El problema con el ejemplo dado (que funciona en mi clúster) es que testData es un derecho dado en el formato correcto. Estoy intentando configurar un cliente servidor tcp intercambio basado en cadenas de datos. No puedo […]

¿Cómo generar tuplas de (etiqueta original, etiqueta pronosticada) en Spark con MLlib?

Estoy tratando de hacer predicciones con el modelo que recibí de MLlib en Spark. El objective es generar tuplas de (orinalLabelInData, predictedLabel). Entonces esas tuplas se pueden usar para propósitos de evaluación de modelos. ¿Cuál es la mejor manera de lograr esto? Gracias. Suponiendo que parsedTrainData es un RDD de LabeledPoint from pyspark.mllib.regression import LabeledPoint […]