Articles of diff

Implementando la API DiffMatchPatch de Google para Python 2/3

Quiero escribir una aplicación de diferencia simple en Python utilizando las API de Diff Match Patch de Google . Soy bastante nuevo en Python, por lo que quiero un ejemplo de cómo utilizar la API de parches Diff Match para comparar semánticamente dos párrafos de texto. No estoy muy seguro de cómo utilizar el archivo […]

Encuentra rápidamente las diferencias entre dos archivos de texto grandes

Tengo dos archivos de texto de 3GB, cada archivo tiene alrededor de 80 millones de líneas. Y comparten 99,9% de líneas idénticas (el archivo A tiene 60,000 líneas únicas, el archivo B tiene 80,000 líneas únicas). ¿Cómo puedo encontrar rápidamente esas líneas únicas en dos archivos? ¿Hay alguna herramienta de línea de comandos lista para […]

actualización de dict de Python

¿Python tiene algún tipo de funcionalidad incorporada para notificar qué elementos del diccionario cambiaron en la actualización del dict? Por ejemplo, estoy buscando alguna funcionalidad como esta: >>> a = {‘a’:’hamburger’, ‘b’:’fries’, ‘c’:’coke’} >>> b = {‘b’:’fries’, ‘c’:’pepsi’, ‘d’:’ice cream’} >>> a.diff(b) {‘c’:’pepsi’, ‘d’:’ice cream’} >>> a.update(b) >>> a {‘a’:’hamburger’, ‘b’:’fries’, ‘c’:’pepsi’, ‘d’:’ice cream’} Estoy […]

Algoritmo para detectar documentos similares en script python

Necesito escribir un módulo para detectar documentos similares. He leído muchos documentos de huellas dactilares de técnicas de documentos y otros, pero no sé cómo escribir código o implementar dicha solución. El algoritmo debería funcionar para el idioma chino, japonés, inglés y alemán o ser independiente del idioma. ¿Cómo puedo lograr esto?

Python difflib: destacando las diferencias en línea?

Al comparar líneas similares, quiero resaltar las diferencias en la misma línea: a) lorem ipsum dolor sit amet b) lorem foo ipsum dolor amet lorem foo ipsum dolor sit amet Si bien difflib.HtmlDiff parece hacer este tipo de resaltado en línea, produce un marcado muy detallado. Desafortunadamente, no he podido encontrar otra clase / método […]

¿Cómo imprimir la comparación de dos cadenas multilínea en formato diff unificado?

¿Conoces alguna biblioteca que te ayude a hacer eso? Escribiría una función que imprima las diferencias entre dos cadenas multilínea en el formato diff unificado. Algo como eso: def print_differences(string1, string2): “”” Prints the comparison of string1 to string2 as unified diff format. “”” ??? Un ejemplo de uso es el siguiente: string1=””” Usage: trash-empty […]

JSON que difiere textualmente

Como parte de mis procesos de lanzamiento, tengo que comparar algunos datos de configuración JSON utilizados por mi aplicación. Como primer bash, simplemente imprimí el JSON y lo difuminé (usando kdiff3 o solo diff). Sin embargo, a medida que los datos crecieron, kdiff3 confunde diferentes partes en la salida, lo que hace que las adiciones […]

Compara dos archivos para las diferencias en python

Quiero comparar dos archivos (tomar la línea del primer archivo y buscar en el segundo archivo completo) para ver las diferencias entre ellos y escribir la línea que falta desde el archivo A.txt hasta el final del archivo B.txt. Soy nuevo en Python, así que al principio pensé en un progtwig simple como este: import […]

Difunde dos archivos grandes en Python

Tengo dos archivos de texto grandes, cerca de 2GB cada uno. Necesito algo como diff f1.txt f2.txt . ¿Hay alguna manera de hacer esta tarea rápido en python? El difflib estándar es demasiado lento. Supongo que hay una manera más rápida, porque difflib está completamente implementado en Python.

Python – diferencia entre dos cuerdas

Me gustaría almacenar muchas palabras en una lista. Muchas de estas palabras son muy similares. Por ejemplo, tengo la palabra afrykanerskojęzyczny y muchas palabras como afrykanerskojęzycznym , afrykanerskojęzyczni , nieafrykanerskojęzyczni . ¿Cuál es la solución efectiva (rápida y de tamaño pequeño) para encontrar la diferencia entre dos cadenas y restaurar la segunda cadena desde la […]