Articles of html de

Procesador ligero HTML con CSS en Python

Lo siento, tal vez no haya descrito bien el problema la primera vez. Todas sus respuestas son interesantes, pero la mayoría de ellas son navegadores web casi completos, mi tarea es mucho más sencilla. Estoy planeando escribir una aplicación de GUI utilizando uno de los marcos de GUI de linux disponibles (aún no he elegido […]

Descargas concurrentes – Python

El plan es este: Descargo una página web, recopilo una lista de imágenes analizadas en el DOM y luego las descargo. Después de esto, recorrería las imágenes para evaluar qué imagen es la más adecuada para representar la página web. El problema es que las imágenes se descargan 1 a 1 y esto puede llevar […]

generador html de python

Estoy buscando un generador html de python de fácil implementación. Encontré este http://www.decalage.info/python/html pero no hay manera de agregar elementos css (id, clase) para la tabla. Gracias

¿Cómo soluciono incorrectamente las tags HTML anidadas / no cerradas?

Necesito desinfectar el HTML enviado por el usuario cerrando cualquier etiqueta abierta con el orden de anidamiento correcto. He estado buscando un algoritmo o código Python para hacer esto, pero no he encontrado nada, excepto algunas implementaciones a medias en PHP, etc. Por ejemplo, algo como Foo se convierte en Foo Cualquier ayuda sería apreciada […]

¿Cómo encontrar la etiqueta de comentario con BeautifulSoup?

Probé soup.find (‘! -‘) pero no parece funcionar. Gracias por adelantado. Edit: Gracias por el consejo sobre cómo encontrar todos los comentarios. Tengo una pregunta de seguimiento. ¿Cómo busco específicamente un comentario? Por ejemplo, tengo la siguiente etiqueta de comentario: <!– Wednesday 110518(05:00PM) –> Realmente solo quiero esto Wednesday 110518 . El “110518” es la […]

Convertir HTML a una imagen en Python

Quiero convertir la siguiente imagen HTML a PNG en Python. Bold text Este HTML es, por supuesto, un ejemplo. He intentado ‘pisa’ pero convierte html a PDF, no a imagen. Puedo convertir HTML a PDF y luego convertir PDF a PNG, pero me preguntaba si hay alguna solución directa (es decir, HTML a PNG). Cualquier […]

Extraer texto de un archivo HTML usando Python

Me gustaría extraer el texto de un archivo HTML usando Python. Quiero esencialmente la misma salida que obtendría si copiara el texto desde un navegador y lo pegara en el bloc de notas. Me gustaría algo más robusto que usar expresiones regulares que puedan fallar en HTML mal formado. He visto a muchas personas recomendar […]

Convierta entidades XML / HTML en una cadena Unicode en Python

Estoy haciendo algunos raspados web y los sitios utilizan con frecuencia entidades HTML para representar caracteres no ascii. ¿Python tiene una utilidad que toma una cadena con entidades HTML y devuelve un tipo Unicode? Por ejemplo: Vuelvo ǎ que representa una “ǎ” con una marca de tono. En binario, esto se representa como el 16 […]