Articles of k means

Sklearn Kmeans parámetro confusión?

Así que puedo correr sklearn kmeans como lo siguiente: kmeans = KMeans(n_clusters=3,init=’random’,n_init=10,max_iter=500) Pero estoy un poco confundido sobre lo que significan los parámetros entonces n_init dice: Número de veces que se ejecutará el algoritmo k-means con diferentes semillas de centroides. Los resultados finales serán la mejor salida de n_init corridas consecutivas en términos de inercia. […]

Trazar los clústeres de KMeans y clasificación para datos unidimensionales

Estoy utilizando KMeans para agrupar los tres conjuntos de datos de series de tiempo con diferentes caracteres. Por razones de reproducibilidad, estoy compartiendo los datos aquí . Aqui esta mi codigo import numpy as np import matplotlib.pyplot as plt from sklearn.cluster import KMeans protocols = {} types = {“data1”: “data1.csv”, “data2”: “data2.csv”, “data3”: “data3.csv”} for […]

Sklearn Pipeline: ¿Cómo construir para kmeans, agrupar texto?

Tengo el texto como se muestra: list1 = [“My name is xyz”, “My name is pqr”, “I work in abc”] Lo anterior será un conjunto de entrenamiento para agrupar texto usando kmeans. list2 = [“My name is xyz”, “I work in abc”] Lo anterior es mi conjunto de prueba. He construido un vectorizador y el […]

Python scikit-learn KMeans se está matando (9) al calcular la puntuación de silueta

Actualmente estoy trabajando en un conjunto de datos de imágenes (250 000 imágenes, por lo tanto, tanto como los vectores de características, cada uno de ellos compuesto por 132 características) y tratando de usar la función KMeans proporcionada por sklearn. Lo ejecuto en Mac OS X 10.10, Python 2.7 y sklearn 0.15.2, y después de […]

Resultados inconsistentes con KMeans entre Apache Spark y scikit_learn

Estoy realizando un agrupamiento en un conjunto de datos utilizando PySpark. Para encontrar la cantidad de grupos, realicé la agrupación en un rango de valores (2,20) y encontré los wsse (sum de cuadrados dentro del grupo) para cada valor de k . Esto donde encontré algo inusual. Según mi entendimiento, cuando aumenta la cantidad de […]

puntos de agrupación después de agrupación KMeans (scikit learn)

He hecho agrupamiento usando Kmeans usando sklearn. Si bien tiene un método para imprimir los centroides, me parece bastante bueno que scikit-learn no tiene un método para imprimir los puntos de clúster de cada grupo (o que no lo haya visto hasta ahora). ¿Hay alguna forma clara de obtener los puntos de agrupación de cada […]

scikit-aprender a saber documentos en el clúster?

Soy nuevo tanto en python como en scikit-learn, así que por favor tengan paciencia conmigo. Tomé este código fuente para k significa algoritmo de agrupamiento de k significa agrupamiento. Luego modifiqué para ejecutarlo en mi conjunto local usando la función load_file. Aunque el algoritmo finaliza, pero no produce ningún resultado, como los documentos agrupados. Descubrí […]

Trazando los límites de la zona de clúster en Python con el paquete scikit

Aquí está mi ejemplo simple de tratar con el agrupamiento de datos en 3 atributos (x, y, valor). Cada muestra representa su ubicación (x, y) y su variable de pertenencia. Mi código fue publicado aquí: x = np.arange(100,200,1) y = np.arange(100,200,1) value = np.random.random(100*100) xx,yy = np.meshgrid(x,y) xx = xx.reshape(100*100) yy = yy.reshape(100*100) j = […]

Diagtwig de dispersión de kmeans: trazar diferentes colores por grupo

Estoy tratando de hacer un diagtwig de dispersión de una salida kmeans que agrupa las oraciones del mismo tema juntas. El problema al que me enfrento es trazar puntos que pertenecen a cada grupo de un color determinado. sentence_list=[“Hi how are you”, “Good morning” …] #i have 10 setences km = KMeans(n_clusters=5, init=’k-means++’,n_init=10, verbose=1) #with […]

Cómo agregar clústeres predichos de k-medias en una columna a un dataframe en Python

Tiene una pregunta acerca de los kmeans que se agrupan en python. Así que hice el análisis de esa manera: from sklearn.cluster import KMeans km = KMeans(n_clusters=12, random_state=1) new = data._get_numeric_data().dropna(axis=1) kmeans.fit(new) predict=km.predict(new) ¿Cómo puedo agregar la columna con resultados de clúster a mis primeros “datos” del dataframe como una columna adicional? ¡Gracias!