Articles of Dom

Configuración del tiempo de espera de carga de página en el enlace de Selenium Python

Estoy escribiendo un bot que usa Python con el módulo Selenium. Cuando abro una página web con mi bot, ya que la página web contiene demasiadas fonts externas que dom, se necesita mucho para cargar toda la página. Utilicé las esperas explícitas e implícitas para eliminar este problema, ya que solo quería que se cargara […]

HTML sin procesar frente a DOM que raspa en python usando mecanizar y sopa hermosa

Estoy intentando escribir un progtwig que, como ejemplo, eliminará el precio máximo de esta página web: http://www.kayak.com/#/flights/JFK-PAR/2012-06-01/2012-07-01/1adults Primero, puedo recuperar fácilmente el HTML haciendo lo siguiente: from urllib import urlopen from BeautifulSoup import BeautifulSoup import mechanize webpage = ‘http://www.kayak.com/#/flights/JFK-PAR/2012-06-01/2012-07-01/1adults’ br = mechanize.Browser() data = br.open(webpage).get_data() soup = BeautifulSoup(data) print soup Sin embargo, el HTML en […]

Obtenga el primer enlace en un artículo de Wikipedia que no esté entre paréntesis

Así que me interesa esta teoría de que si vas a un artículo aleatorio de Wikipedia, haz clic en el primer enlace que no esté entre paréntesis repetidamente, en el 95% de los casos terminarás en el artículo sobre Filosofía . Quería escribir un script en Python que haga la búsqueda del enlace para mí […]

¿Cómo analizar el texto reestructurado en python?

¿Hay algún módulo que pueda analizar el texto reestructurado en un modelo de árbol? ¿Puede hacer esto docutils o sphinx?

Rutas específicas para encontrar elementos XML utilizando minidom en Python

Según este hilo , estoy usando xml.dom.minidom para hacer un desplazamiento XML muy básico, de solo lectura. Lo que me confunde es por qué su getElementsByTagName está encontrando nodos en varios niveles jerárquicos sin proporcionar explícitamente su ruta exacta. XML: Código Python: xmldoc = minidom.parse(‘sampleXML.xml’) items = xmldoc.getElementsByTagName(‘item’) for item in items: print item.attributes[‘name’].value Huellas […]

¿Cómo establecer la identificación del elemento en xml.dom.minidom de Python?

¿Cómo? Creó un documento y un elemento: import xml.dom.minidom as d a=d.Document() b=a.createElement(‘test’) setIdAttribute no funciona 🙁 b.setIdAttribute(‘something’) Traceback (most recent call last): File “”, line 1, in File “/usr/lib/python2.6/xml/dom/minidom.py”, line 835, in setIdAttribute self.setIdAttributeNode(idAttr) File “/usr/lib/python2.6/xml/dom/minidom.py”, line 843, in setIdAttributeNode raise xml.dom.NotFoundErr() xml.dom.NotFoundErr Y si configuro esto a mano, getElementById no puede encontrarlo. b.setAttribute(‘id’, […]

¿Cómo encontrar el valor del elemento usando Splinter?

Tengo la siguiente pieza de html: foo: foo bar: bar foo2: description: description body another foo: foooo Me gustaría obtener el cuerpo de la descripción utilizando splinter. He logrado obtener una lista de p usando browser.find_by_css(“p.attrs”)

Cómo agregar encabezado xml al objeto dom

Estoy usando xml.dom.minidom de Python, pero creo que la pregunta es válida para cualquier analizador DOM. Mi archivo original tiene una línea como esta al principio: Esto no parece ser parte del dominio, por lo que cuando hago algo como dom.toxml (), la cadena resultante no tiene línea al principio. ¿Cómo puedo añadirlo? ejemplo de […]

¿Cómo almacenar de manera eficiente este documento XML analizado en la base de datos MySQL usando Python?

A continuación se muestra el archivo XML: book.xml Sample XML Book Benjamin Smith A First Chapter B 783 . Third Chapter B 59 . XML Master John Doe C Second Chapter K 54 . Third Chapter K 328 . Seventh Chapter K 265 . Ninth Chapter K 356 . A continuación se muestra el código […]

Pasando objetos de Django a Javascript DOM

Estoy tratando de pasar un conjunto de consultas de Django a una plantilla con javascript. He intentado diferentes enfoques para resolver esto: 1. Enfoque normal: Javascript se complica al intentar analizar el objeto debido a la nomenclatura [& gt Object: ID & lt, & gt Object: ID & lt, …] Django View django_list = list(Some_Object.objects.all()) […]