Articles of lxml

lxml cambiando caracteres de Unicode

Estoy usando lxml para leer un archivo xml y cambiar algunos detalles. Sin embargo, cuando lo ejecuto, encuentro que incluso si uso lxml para leer el archivo y luego lo escribo de nuevo, como se muestra a continuación: fil=’iTunes Music Library.XML’ tre=etree.parse(fil) tre.write(‘temp.xml’) Encuentro que Queensrÿche se convirtió a Queensrÿche . Alguien sabe como arreglar […]

Error al instalar lxml en virtualenv a través de pip install: comando ‘x86_64-linux-gnu-gcc’

cuando activo virtualenv y escribo el proceso de instalación ‘pip install lxml‘ se bloquea con el mensaje: /usr/bin/ld: cannot find -lz collect2: error: ld returned 1 exit status error: command ‘x86_64-linux-gnu-gcc’ failed with exit status 1

lxml.etree y xml.etree.ElementTree agregando espacios de nombres sin prefijos (ns0, ns1, etc.)

¿Hay alguna solución para agregar espacios de nombres sin prefijo (me refiero a estos ns0, ns1) que funcionan en todas las implementaciones de etree o hay soluciones de trabajo para cada una? Por ahora tengo soluciones para: lxml – argumento nsmap de Elemento (c) ElementTree (python 2.6+): registre el método de espacio de nombres con […]

Análisis de los contenidos de lxml.etree._Element

Tengo el siguiente elemento que he analizado de una 5548U Power La Vaca(M8025K)Linux 4.2.xx Estoy tratando de extraer “55488 Power La Vaca (8025K) Linux 4.2.xx” de este elemento (incluidos los espacios). import lxml.etree as ET td_html = “”” 5548U Power La Vaca(M8025K)Linux 4.2.xx “”” td_elem = ET.fromstring(td_html) fail_1 = td_elem.find(‘a’).text + td_elem.text print “FAIL_1”, fail_1 […]

lxml.etree fromsting () y tostring () no están devolviendo los mismos datos

Estoy aprendiendo lxml (después de usar ElementTree) y estoy desconcertado por qué .fromstring y .tostring no parecen ser reversibles. Aquí está mi ejemplo: import lxml.etree as ET f = open(‘somefile.xml’,’r’) data = f.read() tree_in = ET.fromstring(data) tree_out = ET.tostring(tree_in) f2 = open(‘samefile.xml’,’w’) f2.write(tree_out) f2.close ‘somefile.xml’ fue de 132 KB. ‘samefile.xml’ – el resultado – fue […]

¿Averiguar dónde está CDATA en el elemento lxml?

Necesito analizar y reconstruir un formato de archivo usado por un analizador que habla un idioma que solo puede ser descrito de manera caritativa como XML. Me doy cuenta de que a XML que cumple con los estándares no le importa ni la CDATA ni el espacio en blanco, pero desafortunadamente esta aplicación exige que […]

Iterar a través de todas las filas en una tabla usando python lxml xpath

Este es el código fuente de la página html de la que quiero extraer datos. Página web: http://gbgfotboll.se/information/?scr=table&ftid=51168 La tabla está en la parte inferior de la página Kommande matcher Tid Match Arena 2014-09-26 19:30 Guldhedens IK – IF Warta Guldheden Södra 1 Konstgräs 2014-09-26 13:00 Romelanda UF – IK Virgo Romevi 1 Gräs 2014-09-27 […]

¿Cómo obtener el contenido completo de un nodo usando xpath y lxml?

Estoy usando la función xpath de lxml para recuperar partes de una página web. Estoy tratando de obtener el contenido de una etiqueta de , que incluye tags html propias. Si yo uso //td[@valign=”top”]/p[1]/font[@face=”verdana” and @color=”#ffffff” and @size=”2″] Obtengo la cantidad correcta de nodos, pero se devuelven como objetos lxml ( ). Si yo uso […]

reemplazar el texto del nodo usando lxml.objectify mientras se preservan los atributos

Usando lxml.objectify como tal: from lxml import objectify o = objectify.fromstring(“oldtext”) ob = ‘newtext’ da como resultado newtext , perdiendo el atributo de nodo. Parece que se está reemplazando directamente el elemento con uno recién creado, en lugar de simplemente reemplazar el texto del elemento. Si trato de usar obtext = ‘newtext’ , me dice […]

XML caminando en python

Soy nuevo en Python y me gustaría entender el xml de análisis. No he podido encontrar ningún gran ejemplo o explicación de cómo crear un progtwig genérico para recorrer un conjunto de nodos XML. Quiero poder categorizar e identificar todos los elementos y atributos por nombre y valor, sin tener ninguna información sobre el esquema […]