Articles of k means

Scikit-learn: ¿Cómo ejecutar KMeans en una matriz unidimensional?

Tengo una matriz de 13.876 (13.876) valores entre 0 y 1. Me gustaría aplicar sklearn.cluster.KMeans solo a este vector para encontrar los diferentes grupos en los que se agrupan los valores. Sin embargo, parece que KMeans trabaja con una matriz multidimensional y no con unidimensional. Supongo que hay un truco para que funcione, pero no […]

¿Cómo puedo prevenir problemas de NAN?

Estoy recibiendo Mean of empty slice advertencias de tiempo de ejecución de Mean of empty slice . Cuando imprimo cuáles son mis variables (matrices numpy), varias de ellas contienen valores nan . La advertencia de tiempo de ejecución está considerando la línea 58 como el problema. ¿Qué puedo cambiar para que funcione? A veces el […]

¿Cómo asignar una nueva observación a los clústeres Kmeans existentes en función de la lógica centriodo de clúster más cercana en python?

Utilicé el siguiente código para crear clústeres de k-means utilizando Scikit learn. kmean = KMeans(n_clusters=nclusters,n_jobs=-1,random_state=2376,max_iter=1000,n_init=1000,algorithm=’full’,init=’k-means++’) kmean_fit = kmean.fit(clus_data) También he guardado los centroides utilizando kmean_fit.cluster_centers_ Entonces decapé el K significa objeto. filename = pickle_path+’\\’+’_kmean_fit.sav’ pickle.dump(kmean_fit, open(filename, ‘wb’)) De modo que pueda cargar el mismo objeto kmean_fit.predict(). y aplicarlo a los nuevos datos cuando llegue, utilizando […]

Calcular el costo de Kmeans

Estoy usando este modelo , que no está escrito por mí. Para predecir los centroides tuve que hacer esto: model = cPickle.load(open(“/tmp/model_centroids_128d_pkl.lopq”)) codes = d.map(lambda x: (x[0], model.predict_coarse(x[1]))) donde `d.first () ‘produce esto: (u’3768915289′, array([ -86.00641097, -100.41325623, ])) y codes.first() : (u’3768915289′, (5657, 7810)) ¿Cómo puedo calcular el coste () de este modelo KMeans? Después […]

Pyspark – ValueError: no se pudo convertir la cadena a un literal flotante / inválido para float ()

Estoy tratando de usar datos de un dataframe de chispa como entrada para mi modelo de k-means. Sin embargo sigo recibiendo errores. (Ver sección después del código) Mi dataframe de chispa y se ve así (y tiene alrededor de 1M filas): ID col1 col2 Latitude Longitude 13 … … 22.2 13.5 62 … … 21.4 […]

Sklearn Kmeans parámetro confusión?

Así que puedo correr sklearn kmeans como lo siguiente: kmeans = KMeans(n_clusters=3,init=’random’,n_init=10,max_iter=500) Pero estoy un poco confundido sobre lo que significan los parámetros entonces n_init dice: Número de veces que se ejecutará el algoritmo k-means con diferentes semillas de centroides. Los resultados finales serán la mejor salida de n_init corridas consecutivas en términos de inercia. […]

Trazar los clústeres de KMeans y clasificación para datos unidimensionales

Estoy utilizando KMeans para agrupar los tres conjuntos de datos de series de tiempo con diferentes caracteres. Por razones de reproducibilidad, estoy compartiendo los datos aquí . Aqui esta mi codigo import numpy as np import matplotlib.pyplot as plt from sklearn.cluster import KMeans protocols = {} types = {“data1”: “data1.csv”, “data2”: “data2.csv”, “data3”: “data3.csv”} for […]

Sklearn Pipeline: ¿Cómo construir para kmeans, agrupar texto?

Tengo el texto como se muestra: list1 = [“My name is xyz”, “My name is pqr”, “I work in abc”] Lo anterior será un conjunto de entrenamiento para agrupar texto usando kmeans. list2 = [“My name is xyz”, “I work in abc”] Lo anterior es mi conjunto de prueba. He construido un vectorizador y el […]

Python scikit-learn KMeans se está matando (9) al calcular la puntuación de silueta

Actualmente estoy trabajando en un conjunto de datos de imágenes (250 000 imágenes, por lo tanto, tanto como los vectores de características, cada uno de ellos compuesto por 132 características) y tratando de usar la función KMeans proporcionada por sklearn. Lo ejecuto en Mac OS X 10.10, Python 2.7 y sklearn 0.15.2, y después de […]

Resultados inconsistentes con KMeans entre Apache Spark y scikit_learn

Estoy realizando un agrupamiento en un conjunto de datos utilizando PySpark. Para encontrar la cantidad de grupos, realicé la agrupación en un rango de valores (2,20) y encontré los wsse (sum de cuadrados dentro del grupo) para cada valor de k . Esto donde encontré algo inusual. Según mi entendimiento, cuando aumenta la cantidad de […]