Articles of análisis de clúster

Graficar dendrogtwig usando sklearn.AgglomerativeClustering

Estoy tratando de construir un dendrogtwig usando el atributo children_ proporcionado por AgglomerativeClustering , pero hasta ahora no tengo suerte. No puedo usar scipy.cluster ya que el agrupamiento aglomerado proporcionado en scipy carece de algunas opciones que son importantes para mí (como la opción de especificar la cantidad de clústeres). Estaría muy agradecido por cualquier […]

¿Algoritmo para decidir el corte para colapsar este árbol?

Tengo un árbol de Newick que se construye comparando la similitud (distancia euclidiana) de las Matrices de Peso de Posición (PWM o PSSM) de los supuestos motivos reguladores de ADN que son secuencias de ADN de 4-9 pb de longitud. Una versión interactiva del árbol está arriba en iTol ( aquí ), con la que […]

Problema de agrupamiento

Se me ha encomendado encontrar N grupos que contengan la mayor cantidad de puntos para un determinado conjunto de datos, dado que los grupos están limitados por un cierto tamaño. Actualmente, estoy intentando hacer esto conectando mis datos en un kd-tree, iterando sobre los datos y encontrando al vecino más cercano, y luego fusionando los […]

ALGORITMO – puntuación de similitud de cuerdas / hash

¿Existe un método para calcular algo así como la “puntuación de similitud” general de una cadena? De una manera que no estoy comparando dos cadenas juntas, sino que obtengo algunos números / puntuaciones (hash) para cada cadena que luego me pueden decir que dos cadenas son o no son similares. Dos cadenas similares deben tener […]

¿Calculando el porcentaje de medida de varianza para k-medias?

En la página de Wikipedia , se describe un método de codo para determinar el número de agrupaciones en k-means. El método incorporado de scipy proporciona una implementación, pero no estoy seguro de entender cómo se calcula la distorsión, como la llaman. Más precisamente, si grafica el porcentaje de varianza explicado por los grupos contra […]

Python k-medias algoritmo

Estoy buscando la implementación de Python del algoritmo k-means con ejemplos para agrupar y almacenar en caché mi base de datos de coordenadas.

Reordenar números de grupo para la correspondencia correcta

Tengo un conjunto de datos que agrupé usando dos algoritmos de agrupamiento diferentes. Los resultados son casi iguales, pero los números de clúster están permutados. Ahora para mostrar las tags codificadas por colores, quiero que las identificaciones de las tags sean iguales para los mismos grupos. ¿Cómo puedo obtener la permutación correcta entre los dos […]