Articles of Dom

Cómo analizar HTML con formato incorrecto en python, usando bibliotecas estándar

Hay tantas bibliotecas html y xml integradas en Python , que es difícil de creer que no hay soporte para el análisis HTML en el mundo real. He encontrado un montón de excelentes bibliotecas de terceros para esta tarea, pero esta pregunta es sobre la biblioteca estándar de python. Requisitos: Utilice solo componentes de la […]

¿Cómo puedo asegurarme de que algunos elementos HTML estén cargados para Selenium + Python?

Desde este enlace, asumo que el DOM debe cargarse como un todo al principio en la RAM. ¿Cómo funciona / se carga DOM? (en HTML) Pero luego lo pruebo en Selenium con una excepción de tiempo de espera. Parece que incluso la excepción de tiempo de espera está activada, ya se pueden encontrar algunos elementos, […]

Pasando por HTML DOM en Python

Estoy buscando escribir una secuencia de comandos de Python (usando 3.4.3) que toma una página HTML de una URL y puede ir a través del DOM para tratar de encontrar un elemento específico. Actualmente tengo esto: #!/usr/bin/env python import urllib.request def getSite(url): return urllib.request.urlopen(url) if __name__ == ‘__main__’: content = getSite(‘http://www.google.com’).read() print(content) Cuando imprimo contenido, […]

Script de Python para eliminar todos los comentarios del archivo XML

Estoy tratando de construir un script en python que tome un documento XML y elimine todos los bloques de comentarios de él. Intenté algo a lo largo de las líneas de: tree = ElementTree() tree.parse(file) commentElements = tree.findall(‘//comment()’) for element in commentElements: element.parentNode.remove(element) Hacer esto produce un error extraño de python: “KeyError: ‘()’ Sé que […]

Obtener valor de elemento con minidom con Python

Estoy creando una interfaz gráfica de usuario para la API de Eve Online en Python. He sacado con éxito los datos XML de su servidor. Estoy tratando de tomar el valor de un nodo llamado “nombre”: from xml.dom.minidom import parse dom = parse(“C:\\eve.xml”) name = dom.getElementsByTagName(‘name’) print name Esto parece encontrar el nodo, pero la […]

Xpath vs DOM vs BeautifulSoup vs lxml vs otro ¿Cuál es el enfoque más rápido para analizar una página web?

Sé cómo analizar una página usando Python. Mi pregunta es cuál es el método más rápido de todas las técnicas de análisis, ¿qué tan rápido es de otros? Las técnicas de análisis que conozco son Xpath, DOM, BeautifulSoup y el método de find de Python.

¿Cómo usar Xpath en Python?

¿Qué es la biblioteca? ¿Hay una implementación completa? ¿Cómo se usa la biblioteca? ¿Dónde está su sitio web?