Articles of k means

Python scikit-learn KMeans se está matando (9) al calcular la puntuación de silueta

Actualmente estoy trabajando en un conjunto de datos de imágenes (250 000 imágenes, por lo tanto, tanto como los vectores de características, cada uno de ellos compuesto por 132 características) y tratando de usar la función KMeans proporcionada por sklearn. Lo ejecuto en Mac OS X 10.10, Python 2.7 y sklearn 0.15.2, y después de […]

Resultados inconsistentes con KMeans entre Apache Spark y scikit_learn

Estoy realizando un agrupamiento en un conjunto de datos utilizando PySpark. Para encontrar la cantidad de grupos, realicé la agrupación en un rango de valores (2,20) y encontré los wsse (sum de cuadrados dentro del grupo) para cada valor de k . Esto donde encontré algo inusual. Según mi entendimiento, cuando aumenta la cantidad de […]

puntos de agrupación después de agrupación KMeans (scikit learn)

He hecho agrupamiento usando Kmeans usando sklearn. Si bien tiene un método para imprimir los centroides, me parece bastante bueno que scikit-learn no tiene un método para imprimir los puntos de clúster de cada grupo (o que no lo haya visto hasta ahora). ¿Hay alguna forma clara de obtener los puntos de agrupación de cada […]

scikit-aprender a saber documentos en el clúster?

Soy nuevo tanto en python como en scikit-learn, así que por favor tengan paciencia conmigo. Tomé este código fuente para k significa algoritmo de agrupamiento de k significa agrupamiento. Luego modifiqué para ejecutarlo en mi conjunto local usando la función load_file. Aunque el algoritmo finaliza, pero no produce ningún resultado, como los documentos agrupados. Descubrí […]

Trazando los límites de la zona de clúster en Python con el paquete scikit

Aquí está mi ejemplo simple de tratar con el agrupamiento de datos en 3 atributos (x, y, valor). Cada muestra representa su ubicación (x, y) y su variable de pertenencia. Mi código fue publicado aquí: x = np.arange(100,200,1) y = np.arange(100,200,1) value = np.random.random(100*100) xx,yy = np.meshgrid(x,y) xx = xx.reshape(100*100) yy = yy.reshape(100*100) j = […]

Diagtwig de dispersión de kmeans: trazar diferentes colores por grupo

Estoy tratando de hacer un diagtwig de dispersión de una salida kmeans que agrupa las oraciones del mismo tema juntas. El problema al que me enfrento es trazar puntos que pertenecen a cada grupo de un color determinado. sentence_list=[“Hi how are you”, “Good morning” …] #i have 10 setences km = KMeans(n_clusters=5, init=’k-means++’,n_init=10, verbose=1) #with […]

Cómo agregar clústeres predichos de k-medias en una columna a un dataframe en Python

Tiene una pregunta acerca de los kmeans que se agrupan en python. Así que hice el análisis de esa manera: from sklearn.cluster import KMeans km = KMeans(n_clusters=12, random_state=1) new = data._get_numeric_data().dropna(axis=1) kmeans.fit(new) predict=km.predict(new) ¿Cómo puedo agregar la columna con resultados de clúster a mis primeros “datos” del dataframe como una columna adicional? ¡Gracias!

Como imprimir el resultado del clustering en sklearn.

Tengo una matriz dispersa from scipy.sparse import * M = csr_matrix((data_np, (rows_np, columns_np))); entonces estoy haciendo agrupamientos de esa manera from sklearn.cluster import KMeans km = KMeans(n_clusters=n, init=’random’, max_iter=100, n_init=1, verbose=1) km.fit(M) y mi pregunta es extremadamente noob: cómo imprimir el resultado de la agrupación sin ninguna información adicional. No me importa trazar ni distancias. […]

Python sklearn-KMeans cómo obtener los valores en el clúster

Estoy usando el paquete skeansn.cluster KMeans. Una vez que termine la agrupación, si necesito saber qué valores se agruparon, ¿cómo puedo hacerlo? Digamos que tenía 100 puntos de datos y KMeans me dio 5 grupos. Ahora quiero saber qué puntos de datos están en el grupo 5. ¿Cómo puedo hacer eso? ¿Existe una función para […]

Cómo encontrar documentos que están en el mismo grupo con KMeans

He agrupado varios artículos junto con el marco Scikit-learn. A continuación se muestran las 15 palabras principales de cada grupo: Cluster 0: whales islands seaworld hurricane whale odile storm tropical kph mph pacific mexico orca coast cabos Cluster 1: ebola outbreak vaccine africa usaid foundation virus cdc gates disease health vaccines experimental centers obama Cluster […]