Quiero convertir documentos de texto en vectores de características usando tf-idf, y luego entrenar un algoritmo de Bayes ingenuo para clasificarlos. Puedo cargar fácilmente mis archivos de texto sin las tags y usar HashingTF () para convertirlo en un vector, y luego usar IDF () para ponderar las palabras de acuerdo a lo importante que […]
Sigo viendo estas advertencias cuando uso trainImplicit : WARN TaskSetManager: Stage 246 contains a task of very large size (208 KB). The maximum recommended task size is 100 KB. Y luego el tamaño de la tarea comienza a boost. Intenté llamar a repartition en el RDD de entrada pero las advertencias son las mismas. Todas […]
Estoy trabajando con Spark 1.3.0 usando PySpark y MLlib y necesito guardar y cargar mis modelos. Uso código como este (tomado de la documentación oficial) from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating data = sc.textFile(“data/mllib/als/test.data”) ratings = data.map(lambda l: l.split(‘,’)).map(lambda l: Rating(int(l[0]), int(l[1]), float(l[2]))) rank = 10 numIterations = 20 model = ALS.train(ratings, rank, numIterations) testdata […]
Versión Spark: 1.6.0 Intenté calcular las AUC (área bajo ROC) agrupadas por el id campo. Teniendo en cuenta los siguientes datos: # Within each key-value pair # key is “id” # value is a list of (score, label) data = sc.parallelize( [(‘id1’, [(0.5, 1.0), (0.6, 0.0), (0.7, 1.0), (0.8, 0.0)), (‘id2’, [(0.5, 1.0), (0.6, 0.0), […]
Hice un modelo de bosque aleatorio utilizando el paquete sklearn de python donde establecí el valor de inicialización, por ejemplo, en 1234 . Para la producción de modelos, utilizamos pyspark. Si tuviera que pasar los mismos hiperparmetros y el mismo valor de semilla, es decir, 1234 , ¿obtendré los mismos resultados? Básicamente, ¿los números de […]
He creado un RDD con cada miembro siendo un par de valores clave, siendo la clave un DenseVector y un valor un int . p.ej [(DenseVector([3,4]),10), (DenseVector([3,4]),20)] Ahora quiero agrupar por la clave k1 : DenseVector([3,4]) . Espero que el comportamiento agrupe todos los valores de la clave k1 que son 10 y 20 . […]
Según Combining Spark Streaming + MLlib es posible hacer una predicción sobre un flujo de entrada en spark. El problema con el ejemplo dado (que funciona en mi clúster) es que testData es un derecho dado en el formato correcto. Estoy intentando configurar un cliente servidor tcp intercambio basado en cadenas de datos. No puedo […]
Estoy tratando de hacer predicciones con el modelo que recibí de MLlib en Spark. El objective es generar tuplas de (orinalLabelInData, predictedLabel). Entonces esas tuplas se pueden usar para propósitos de evaluación de modelos. ¿Cuál es la mejor manera de lograr esto? Gracias. Suponiendo que parsedTrainData es un RDD de LabeledPoint from pyspark.mllib.regression import LabeledPoint […]
He construido un modelo de Word2Vec usando Spark y lo guardo como modelo. Ahora, quiero usarlo en otro código como modelo fuera de línea. He cargado el modelo y lo he usado para presentar el vector de una palabra (por ejemplo, Hola) y funciona bien. Pero, necesito llamarlo para muchas palabras en un RDD usando […]
Estoy tratando de guardar un modelo ajustado en un archivo en Spark. Tengo un clúster Spark que entrena un modelo RandomForest. Me gustaría guardar y reutilizar el modelo ajustado en otra máquina. Leí algunas publicaciones en la web que recomiendan realizar la serialización de Java. Estoy haciendo el equivalente en python pero no funciona. ¿Cuál […]