Articles of lxml

Python cómo quitar los espacios en blanco de los nodos de texto xml

Tengo un archivo xml de la siguiente manera My Name My Address La etiqueta tiene nuevas líneas adicionales. ¿Hay alguna forma rápida en Pythonic para recortar esto y generar un nuevo xml? Encontré esto pero recorta solo lo que está entre las tags y no el valor https://skyl.org/log/post/skyl/2010/04/remove-insignificant-whitespace-from-xml-string-with-python/ Actualización 1 – Manejar el siguiente xml […]

¿Puedo proporcionar una URL a lxml.etree.parse en Python 3?

La documentación dice que puedo: lxml puede analizar desde un archivo local, una URL HTTP o una URL FTP. También detecta automáticamente y lee archivos XML comprimidos con gzip (.gz). (de http://lxml.de/parsing.html bajo “Analizadores”) pero un experimento rápido parece implicar lo contrario: Python 3.4.1 (v3.4.1:c0e311e010fc, May 18 2014, 10:45:13) [MSC v.1600 64 bit (AMD64)] on […]

Hermosa sopa y raspado de mesa – analizador lxml vs html

Estoy intentando extraer el código HTML de una tabla de una página web usando BeautifulSoup. … Me gustaría saber por qué el código de abajo funciona con “html.parser” y no se imprime si cambio “html.parser” por “lxml” . #! /usr/bin/python from bs4 import BeautifulSoup from urllib import urlopen webpage = urlopen(‘http://www.thewebpage.com’) soup=BeautifulSoup(webpage, “html.parser”) table = […]

Reemplazar texto con etiqueta HTML en elemento de texto LXML

Tengo un elemento lxml : >> lxml_element.text ‘hello BREAK world’ Necesito reemplazar la palabra BREAK con una etiqueta de ruptura HTML— . He intentado hacer el reemplazo de texto simple: lxml_element.text.replace(‘BREAK’, ”) pero inserta la etiqueta con símbolos escapados, como <br/> . ¿Cómo resuelvo este problema?

Analizar un archivo .bz2 grande (40 GB) con lxml iterparse en python. Error que no aparece con el archivo sin comprimir.

Estoy tratando de analizar planet.osm de OpenStreetMap, comprimido en formato bz2. Como ya es 41G, no quiero descomprimir el archivo completamente. Entonces me di cuenta de cómo analizar partes del archivo planet.osm usando bz2 y lxml, usando el siguiente código from lxml import etree as et from bz2 import BZ2File path = “where/my/fileis.osm.bz2” with BZ2File(path) […]

Python lxml inkscape namespace tags

Estoy generando un archivo SVG que pretende incluir tags específicas de Inkscape. Por ejemplo, inkscape:label e inkscape:groupmode . Estoy usando lxml etree como mi analizador / generador. Me gustaría agregar las label y groupmode a la siguiente instancia: layer = etree.SubElement(svg_instance, ‘g’, id=”layer-id”) Mi pregunta es cómo puedo lograr eso para obtener el formulario de […]

Cómo analizar HTML con formato incorrecto en Python

Necesito buscar el árbol DOM de un documento HTML analizado. Estoy usando uTidyLib antes de analizar la cadena con lxml a = tidy.parseString (html_code, options) dom = etree.fromstring (str (a)) A veces me sale un error, parece que tidylib no puede reparar html con formato incorrecto. ¿Cómo puedo analizar todos los archivos HTML sin recibir […]

¿lxml / peticiones puede seleccionar las opciones desplegables y luego analizar ajax resultante?

Tengo un sitio que estoy intentando probar y, aunque puedo obtener una lista de opciones en un menú desplegable, ¿no estoy seguro de cómo seleccionarlo? No hay un botón de envío, de modo que si lo selecciono, se cargará una tabla ajax a continuación. ¿No estoy seguro de si lxml / request puede hacer esto […]

Cómo instalar lxml en Python 3.4 en una máquina con Windows

He pasado horas en esto. Soy nuevo en Python y no puedo ver cuál puede ser la solución. Tengo Python 3.4 y quiero trabajar con .docx , que requiere lxml . El flujo de trabajo que he realizado hasta ahora es: voy a la página del instalador del paquete lxml de Python, pero es bastante […]

ImportError: No hay módulo llamado lxml en Mac

Tengo un problema al ejecutar un script de Python y está mostrando este mensaje: ImportError: No module named lxml Supongo que tengo que instalar un poco llamado lxml pero soy realmente un novato en Python y realmente no tengo mucha idea al respecto. Creo que tengo dos versiones de Python instaladas en mi Mac de […]