Articles of lxml

lxml Element boolean check

Este código: from lxml.html import fromstring, tostring s = ‘Whatever’ e = fromstring(s) print(tostring(e)) print(bool(e)) salidas: Whatever False ¿Por qué? ¿Cómo funciona el control booleano en esta clase? Indíqueme el código o la documentación pertinente, por favor. PD Estoy usando lxml 3.3.5

Instalar easy_install … para llegar a instalar lxml

Me he dado cuenta del hecho de que ElementTree no va a hacer lo que quiero que haga. He revisado la documentación para lxml, y parece que cumplirá mis propósitos. Para obtener lxml, necesito obtener easy_install. Así que lo descargué desde aquí , y lo puse en /Library/Frameworks/Python.framework/Versions/2.6/lib/python2.6/site-packages/ . Luego fui a esa carpeta y […]

Encontrar elementos por atributo con lxml.

Necesito analizar un archivo xml para extraer algunos datos. Solo necesito algunos elementos con ciertos atributos, aquí hay un ejemplo de documento: some text some text some text Aquí me gustaría obtener solo el artículo con el tipo “noticias”. ¿Cuál es la forma más eficiente y elegante de hacerlo con lxml? Intenté con el método […]

¿Cómo insertar JavaScript en el elemento ?

Lo que tengo es: from lxml import etree myscript = “if(0 < 1){alert(\"Hello World!\");}" html = etree.fromstring("”) for element in html.findall(‘//script’): element.text = myscript result = etree.tostring(html) Lo que obtengo es: >>> result ‘if(0 < 1){alert(“Hello World!”);}’ Lo que quiero es unescaped JavaScript: >>> result ‘if(0 < 1){alert("Hello World!");}’

Etiquetas con: en nombre en lxml

Estoy tratando de usar lxml.etree para analizar un documento de exportación de WordPress (es XML, algo parecido a RSS). Solo me interesan las publicaciones publicadas, así que estoy usando lo siguiente para recorrer las publicaciones publicadas: for item in data.findall(“item”): if item.find(“wp:post_type”).text != “post”: continue if item.find(“wp:status”).text != “publish”: continue write_post(item) donde los data son […]

atributo de valor para lxml.html

Aquí está mi código: from lxml.html import fromstring #code print fromstring(s).xpath(‘/html/body/div[3]/div/div[2]/div/form/input[4]’) La salida es [] ¿Cómo puedo dar salida al valor? ¿Algún atributo para esto? Gracias.

problema de memoria insuficiente al instalar paquetes en el servidor Ubuntu

Estoy usando un servidor en la nube de Ubuntu con 512 MB de RAM y 20 GB de disco duro. Sus 450MB + RAM ya son utilizados por los procesos. Necesito instalar un nuevo paquete llamado lxml que se cumple con Cpython durante la instalación y es un proceso muy pesado, por lo que siempre […]

Escribiendo un archivo XML personalizado para WordPress Importer usando lxml

Bien, así que aquí está mi situación actual: Mi conocimiento de XML o lxml aún no es muy bueno, ya que rara vez he usado archivos XML hasta ahora. Así que, por favor, dime si algo en mi enfoque de esto es realmente estúpido. 😉 Quiero alimentar mi instalación de WordPress con un archivo XML […]

analizar múltiples páginas sin cambios en la dirección url

Deseo analizar los contenidos de la mesa desde aquí . Sin embargo, la tabla continúa en varias páginas. Mi problema es que no puedo analizar páginas a partir de la page 2 ya que no hay cambios en la dirección url . ¿Cómo puedo localizar la dirección url donde se almacenan otras páginas? Estoy usando […]

lxml XMLSyntaxError: No se encontró el prefijo predeterminado del espacio de nombres

Estoy usando lxml para leer mi archivo xml. Estoy usando un código como el siguiente. Funciona bien con lxml2.3 beta1, pero con lxml2.3 me da un error de syntax xml de zn como se muestra a continuación. Revisé las notas de la versión de ambas versiones, pero no pude averiguar qué pudo haber causado este […]