Articles of xpath

Python selenium y captcha

Tengo un robot raspador que quiero detener cada vez que encuentra un captcha, para no molestar a los sitios web. Pero el selenium no lo encuentra. driver.find_element_by_xpath(“//*[@id=’recaptcha-anchor’]”) Este es el cromo xpath que me dieron. ERROR NoSuchElementException: no se puede encontrar el elemento: {“method”: “xpath”, “selector”: “// * [@ id = ‘recaptcha-anchor’]”} ¿Alguna idea de […]

Scrapy XPath todos los enlaces en la página.

Estoy intentando recostackr todas las URL de un dominio utilizando Scrapy. Estaba intentando usar CrawlSpider para comenzar desde la página de inicio y rastrear su web. Para cada página, quiero usar Xpath para extraer todos los hrefs. Y almacene los datos en un formato como par clave-valor. Clave: el valor de la URL actual: todos […]

Cómo manejar la adición de elementos y sus padres usando xpath.

Ok, tengo un caso en el que necesito agregar una etiqueta a otra etiqueta dada una xpath. Ejemplo xml: > Quiero agregar una etiqueta a ambos activos. Sin embargo, al segundo recurso le falta la etiqueta , que quiero agregar. Cada etiqueta de activo se almacena en una variable (por ejemplo, node1, node2). Tengo la […]

¿Predicado XPath con subrutas con lxml?

Estoy tratando de entender y XPath que me enviaron para usar con los formularios ACORD XML (formato común en el seguro). El XPath que me enviaron es (truncado por brevedad): ./PersApplicationInfo/InsuredOrPrincipal[InsuredOrPrincipalInfo/InsuredOrPrincipalRoleCd=”AN”]/GeneralPartyInfo Donde estoy lxml problemas es que la biblioteca lxml de Python me dice que [InsuredOrPrincipalInfo/InsuredOrPrincipalRoleCd=”AN”] es un invalid predicate . No puedo encontrar en […]

¿Cómo encontrar elementos padre por Python webdriver?

¿Existe algún método para que python + selenium encuentre elementos padre, elementos hermanos o elementos hijos, como driver.find_element_parent? o driver.find_element_next? o driver.find_element_previous ? p.ej: ‘abcd’ Lo he intentado a continuación, pero fallará: input_el=driver.find_element_by_name(‘A’) td_p_input=find_element_by_xpath(‘ancestor::input’) ¿Cómo puedo obtener el elemento primario del elemento de entrada y, finalmente, obtener la opción seleccionada ?

Python 2.6.1: separador de ruta esperado ([)

Estoy recibiendo un error de separador de ruta en Python 2.6.1. No he encontrado este problema con la versión de python 2.7.2, pero desafortunadamente lo necesito solo en 2.6.1. ¿Hay alguna otra manera de lograr lo mismo? 🙁 mi código :- import xml.etree.ElementTree as ET #version 1.2.6 import sys class usersDetail(object): def __init__(self, users=None): self.doc […]

Python: Convierte XML a CSV

Tengo un archivo XML como este: 1 Data 1 Studyval 2 Site 2 Info 1 age 2 gender Estoy tratando de convertirlo en un archivo CSV como este: Data,Studyval Date,Site Info,age Info,gender Mi problema es que los nombres de padres e hijos son los mismos: ‘att’ y ‘attval’. ¿Cómo le digo a Python que distinga […]

Expresión válida XPath

Sólo dos preguntas: ¿Cómo puedo verificar si la cadena asignada a una variable corresponde a una expresión válida de XPath? ¿Cómo puedo devolver un mensaje de error personalizado en caso de que el recurso solicitado no exista?

BeautifulSoup extrae XPATH o CSS Path del nodo

Quiero extraer algunos datos de HTML y luego poder resaltar los elementos extraídos en el lado del cliente sin modificar el código fuente de HTML. Y XPath o CSS Path se ve muy bien para esto. ¿Es posible extraer XPATH o CSS Path directamente desde BeautifulSoup? En este momento, uso la marca del elemento de […]

Lxml html xpath context

Estoy usando lxml para analizar un archivo HTML y me gustaría saber cómo puedo configurar el context de búsqueda de xpath. Lo que quiero decir es que tengo un elemento de nodo y quiero realizar una búsqueda por xpath solo dentro de este nodo como si fuera el elemento raíz. Por ejemplo, tengo un nodo […]