Construyendo un HTML Diff / Patch Algorithm

Una descripción de lo que voy a lograr:

  • Entrada 2 (N no es esencial) documentos HTML.
  • Estandarizar el formato HTML.
  • Difunda los dos documentos: los estilos externos no son importantes, pero se incluirá cualquier elemento en línea con el documento.
  • Determine delta en el nivel Elemento de bloque HTML.

Ampliando el último punto:

Imagine dos páginas del mismo sitio que comparten una barra lateral con lo que probablemente era un ancestro común que se ha copiado / pegado. Cada página tiene algunos cambios menores en la barra lateral. El diff revelará estos cambios, luego puedo “subir” el DOM para encontrar el primer elemento de bloque común compartido por ellos, o simplemente predeterminar a . En este caso, me gustaría subir y encontrar que, oh, comparten un