Articles of xpath

Python lxml findall con múltiples espacios de nombres

Estoy tratando de analizar un documento XML con múltiples espacios de nombres con lxml, y estoy atascado en obtener el método findall () para devolver algo. Mi XML: 100_0000100004_3788_Resource-0.customId_WSx Data Precip Type 60 Valid 2016-04-20T12:40:00Z Mi código: from lxml import etree from pprint import pprint RSPxmlFile = ‘/home/user/Desktop/100_0000100004_3788_20160420144011263_records.xml’ with open (RSPxmlFile, ‘rt’) as f: tree […]

Scrapy Spider no raspa correctamente

Estoy usando Python.org 2.7 64 shell de Windows en Windows Vista. Tengo Scrapy instalado y parece estar estable y funcionando. Sin embargo, he copiado la siguiente pieza de código simple: from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector class MySpider(BaseSpider): name = “craig” allowed_domains = [“craigslist.org”] start_urls = [“http://sfbay.craigslist.org/sfc/npo/”] def parse(self, response): hxs = HtmlXPathSelector(response) […]

Scrapy: generar reglas dinámicamente para cada start_url

He creado una araña que se supone que rastrea varios sitios web y debo definir reglas diferentes para cada URL en la lista start_url start_urls = [ “http://URL1.com/foo” “http://URL2.com/bar” ] rules = [ Rule (LinkExtractor(restrict_xpaths=(“//” + xpathString+”/a”)), callback=”parse_object”, follow=True) ] Lo único que necesita cambiar en la regla es la cadena xpath para restring_xpath. Ya […]

¿Cómo hacer que XPath devuelva ‘Ninguno’ en Python si no se encuentran datos?

XPath no devuelve nada si un elemento hijo no tiene valor de texto. En este caso, la calificación no tiene datos, por lo que quiero que lo diga: ninguno o nada en este niño en lugar de simplemente ignorarlo. Su aportación es muy apreciada. XML: Harry Potter 29.99 Learning XML 39.95 Python: >>> import lxml.html […]

python: xpath devuelve una lista vacía de boxofficemojo.com

Estoy tratando de raspar datos específicos de la página de cada película en BoxOfficeMojo.com usando el siguiente código. Desafortunadamente el xpath devuelve una lista vacía. Algunas publicaciones sugieren eliminar tbody de xpath, pero esto también devuelve una lista vacía. Utilicé el mismo código para extraer texto de Rotten Tomatoes e IMBD y la xpath funcionó […]

¿No se pueden escribir correctamente los elementos extraídos en un archivo de Excel?

He escrito algún código en python para analizar el título y el enlace de una página web. Inicialmente, intenté analizar los enlaces de la barra del lado izquierdo y luego raspar los documentos mencionados de cada página rastreando cada uno de ellos. Hice esto perfectamente. Intenté guardar los documentos de diferentes enlaces en diferentes páginas […]

¿Cómo buscar contenido en XPath en texto multilínea usando Python?

Cuando busco la existencia de datos en el texto () de un elemento utilizando, funciona para datos simples pero no cuando hay retornos de carro, nuevas líneas / tags en el contenido del elemento. ¿Cómo hacer que //td[contains(text(), “”)] funcione en este caso? ¡Gracias! XML: Hello world how are you? Have a wonderful day. Good […]

Lista vacía con scrapy y xpath

Estoy empezando a usar scrapy y xpath para raspar algunas páginas, solo bash cosas simples con ipython, y recibo respuestas en algunas páginas como en IMDB, pero cuando bash en otras como www.bbb.org siempre obtengo una lista vacía Esto es lo que estoy haciendo: scrapy shell ‘http://www.bbb.org/central-western-massachusetts/business-reviews/auto-repair-and-service/toms-automotive-in-fitchburg-ma-211787’ Acreditación BBB Un negocio acreditado por BBB desde […]

Extracción de tablas de un documento de DOCX Word en python

Estoy tratando de extraer un contenido de tablas en el documento DOCX Word y, por supuesto, soy nuevo en xml / xpath. from docx import * document = opendocx(‘someFile.docx’) tableList = document.xpath(‘/w:tbl’) Esto activa el error “XPathEvalError: prefijo de espacio de nombres no definido”. Estoy seguro de que es solo el primero que se espera […]

Cómo escapar de la comilla simple en xpath 1.0 en selenium para python

Tengo la siguiente línea de código utilizada en el script Python de Selenio: from selenium import webdriver driver.find_element_by_xpath(u”//span[text()='” + cat2 + “‘]”).click() cat2 es variable de una lista de base de datos que obtengo de esta manera: db = Database() sql = “SELECT * FROM missing listeproduit = db.select(sql) for record in listeproduit: cat2 = […]