Articles of k means

Cómo agregar clústeres predichos de k-medias en una columna a un dataframe en Python

Tiene una pregunta acerca de los kmeans que se agrupan en python. Así que hice el análisis de esa manera: from sklearn.cluster import KMeans km = KMeans(n_clusters=12, random_state=1) new = data._get_numeric_data().dropna(axis=1) kmeans.fit(new) predict=km.predict(new) ¿Cómo puedo agregar la columna con resultados de clúster a mis primeros “datos” del dataframe como una columna adicional? ¡Gracias!

Como imprimir el resultado del clustering en sklearn.

Tengo una matriz dispersa from scipy.sparse import * M = csr_matrix((data_np, (rows_np, columns_np))); entonces estoy haciendo agrupamientos de esa manera from sklearn.cluster import KMeans km = KMeans(n_clusters=n, init=’random’, max_iter=100, n_init=1, verbose=1) km.fit(M) y mi pregunta es extremadamente noob: cómo imprimir el resultado de la agrupación sin ninguna información adicional. No me importa trazar ni distancias. […]

Python sklearn-KMeans cómo obtener los valores en el clúster

Estoy usando el paquete skeansn.cluster KMeans. Una vez que termine la agrupación, si necesito saber qué valores se agruparon, ¿cómo puedo hacerlo? Digamos que tenía 100 puntos de datos y KMeans me dio 5 grupos. Ahora quiero saber qué puntos de datos están en el grupo 5. ¿Cómo puedo hacer eso? ¿Existe una función para […]

Cómo encontrar documentos que están en el mismo grupo con KMeans

He agrupado varios artículos junto con el marco Scikit-learn. A continuación se muestran las 15 palabras principales de cada grupo: Cluster 0: whales islands seaworld hurricane whale odile storm tropical kph mph pacific mexico orca coast cabos Cluster 1: ebola outbreak vaccine africa usaid foundation virus cdc gates disease health vaccines experimental centers obama Cluster […]

trazar un documento tfidf 2D gráfico

Me gustaría trazar un gráfico 2d con el eje x como término y el eje y como puntaje TFIDF (o documento id) para mi lista de oraciones. Utilicé fit_transform () de scikit learn para obtener la matriz scipy pero no sé cómo usar esa matriz para trazar la gráfica. Estoy tratando de obtener una ttwig […]

TypeError: el objeto de tipo ‘map’ no tiene len () Python3

Estoy intentando implementar el algoritmo KMeans usando Pyspark, me da el error anterior en la última línea del bucle while. funciona bien fuera del bucle, pero después de crear el bucle, me dio este error ¿Cómo soluciono esto? # Find K Means of Loudacre device status locations # # Input data: file(s) with device status […]

k-medias en python: determina qué datos están asociados con cada centroide

He estado usando scipy.cluster.vq.kmeans para hacer algunos scipy.cluster.vq.kmeans de k-means, pero me preguntaba si hay una manera de determinar con qué centroide está asociado (putativamente) cada uno de sus puntos de datos. Claramente, puedes hacer esto manualmente, pero, por lo que puedo decir, la función kmeans no devuelve esto.

Agrupar documentos de texto utilizando los kmeans de scikit-learn en Python

Necesito implementar kMeans de scikit-learn para agrupar documentos de texto. El código de ejemplo funciona bien como está, pero toma algunos datos de 20newsgroups como entrada. Quiero usar el mismo código para agrupar una lista de documentos como se muestra a continuación: documents = [“Human machine interface for lab abc computer applications”, “A survey of […]

¿Es el KMeans de Spark incapaz de manejar bigdata?

KMeans tiene varios parámetros para su entrenamiento , con el modo de inicialización predeterminado a kmeans ||. El problema es que avanza rápidamente (menos de 10 minutos) a las primeras 13 etapas, pero luego se cuelga por completo , ¡sin producir un error! Ejemplo mínimo que reproduce el problema (tendrá éxito si uso 1000 puntos […]

k-medias con centros iniciales seleccionados

Estoy tratando de k-medias agrupación con centroides iniciales seleccionados. Aquí dice que para especificar sus centros iniciales: init : {‘k-means++’, ‘random’ or an ndarray} Si se pasa un ndarray , debe ser de forma ( n_clusters , n_features ) y da los centros iniciales. Mi código en Python: X = np.array([[-19.07480000, -8.536], [22.010800000,-10.9737], [12.659700000,19.2601]], np.float64) […]