Articles of lxml

lxml iterparse en python no puede manejar espacios de nombres

from lxml import etree import StringIO data= StringIO.StringIO(‘OneTwoThree’) docs = etree.iterparse(data,tag=’a’) a,b = docs.next() Traceback (most recent call last): File “”, line 1, in File “iterparse.pxi”, line 478, in lxml.etree.iterparse.__next__ (src/lxml/lxml.etree.c:95348) File “iterparse.pxi”, line 534, in lxml.etree.iterparse._read_more_events (src/lxml/lxml.etree.c:95938) StopIteration Funciona bien hasta que agrego el espacio de nombres al nodo raíz. ¿Alguna idea sobre lo […]

¿Cómo hacer que lxml funcione bajo IronPython?

Necesito portar algún código que se base en gran medida en lxml desde una aplicación CPython a IronPython. lxml es muy Pythonic y me gustaría seguir usándolo bajo IronPython, pero depende de libxslt y libxml2, que son extensiones C. ¿Alguien sabe de una solución para permitir lxml bajo IronPython o una versión de lxml que […]

¿Cuál es el trato sobre https cuando se utiliza lxml?

Estoy utilizando lxml para analizar los archivos html dados urls. Por ejemplo: link = ‘https://abc.com/def’ htmltree = lxml.html.parse(link) Mi código funciona bien en la mayoría de los casos, los de http:// . Sin embargo, encontré que para cada https:// url, lxml simplemente obtiene un error IOError . ¿Alguien sabe el motivo? Y posiblemente, ¿cómo corregir […]

Python: inyectar contenido HTML en una etiqueta usando `lxml.html`

Estoy usando la biblioteca lxml.html para analizar un documento HTML. Localicé una etiqueta específica, que llamo content_tag , y quiero cambiar su contenido (es decir, el texto entre y ,) y el nuevo contenido es una cadena con algún html, digamos que es ‘Hello world!’ . ¿Cómo puedo hacer eso? Intenté content_tag.text = ‘Hello world!’ […]

Archivo XML DATEXII a DataFrame en Python

Los últimos días he estado intentando abrir y leer un determinado archivo XML (en formato DATEXII), pero hasta ahora no he tenido éxito. Se trata de datos de tráfico del sitio web de datos abiertos de NDW (Banco de datos holandés para datos de tráfico y tráfico), hipervínculo para la fuente de los archivos XML. […]

Recuperando un subconjunto de href’s de findall () en BeautifulSoup

Mi objective es escribir una secuencia de comandos de python que tome el nombre de un artista como una entrada de cadena y luego la agregue a la URL base que va a la consulta de búsqueda de genio. de este problema que también contendrá específicamente el nombre del artista en cada enlace de ese […]

Cómo dividir las tags del árbol html

Este es mi árbol html Citibank Credit Card – Save over 5% on fuel | Citibank.co.in Get the IndianOil Citibank Card. Apply Now! Get 10X Rewards On Shopping – Save Over 5% On Fuel www.citibank.co.in/CreditCards De este html necesito extraer las líneas antes de la etiqueta line1: Obtenga la tarjeta IndianOil Citibank. ¡Aplica ya! line2: […]

¿Cómo me asigno a un diccionario en lugar de una lista?

Tengo la siguiente función, que hace un trabajo básico de mapear un objeto lxml a un diccionario … from lxml import etree tree = etree.parse(‘file.xml’) root = tree.getroot() def xml_to_dict(el): d={} if el.text: print ‘***write tag as string’ d[el.tag] = el.text else: d[el.tag] = {} children = el.getchildren() if children: d[el.tag] = map(xml_to_dict, children) return […]

Cómo extraer la etiqueta html principal en Python haciendo coincidir la cadena

Necesito extraer las tags principales en html haciendo coincidir la cadena en html. (ie) Tengo muchas fonts html crudas. Cada fuente contiene el valor de texto “VIN: * ” ** con algunos caracteres. Este valor de texto (VIN: * ) se coloca en varios formatos en cada fuente, como “ “, “ “, etc. Luego […]

tratando de instalar lxml en max osx leopard

He probado muchas guías diferentes … esta me lleva más lejos … CFLAGS=”$CFLAGS -lgcrypt -fPIC” STATIC_DEPS=true easy_install-2.6 lxml Sin embargo, después de instalar todas las dependencias, recibo este mensaje de error una y otra vez: install-NRDNAB/lxml-2.3/build/tmp/libxml2/lib/pkgconfig” /usr/bin/install -c -m 644 libxslt.m4 ‘/private/tmp/easy_install-NRDNAB/lxml-2.3/build/tmp/libxml2/share/aclocal’ /usr/bin/install -c -m 644 xsltConf.sh ‘/private/tmp/easy_install-NRDNAB/lxml-2.3/build/tmp/libxml2/lib’ /usr/bin/install -c -m 644 libxslt.pc libexslt.pc ‘/private/tmp/easy_install-NRDNAB/lxml-2.3/build/tmp/libxml2/lib/pkgconfig’ […]