Articles of html parsing

Utilice BeautifulSoup para obtener un valor después de una etiqueta específica

Me está costando mucho conseguir que BeautifulSoup raspe algunos datos para mí. ¿Cuál es la mejor manera de acceder a la fecha (los números reales, 2008) desde este ejemplo de código? Es la primera vez que utilizo Beautifulsoup, he descubierto cómo eliminar las URL de la página, pero no puedo restringirlas solo para seleccionar la […]

Hermosa sopa y raspado de mesa – analizador lxml vs html

Estoy intentando extraer el código HTML de una tabla de una página web usando BeautifulSoup. … Me gustaría saber por qué el código de abajo funciona con “html.parser” y no se imprime si cambio “html.parser” por “lxml” . #! /usr/bin/python from bs4 import BeautifulSoup from urllib import urlopen webpage = urlopen(‘http://www.thewebpage.com’) soup=BeautifulSoup(webpage, “html.parser”) table = […]

Convertir la lista HTML a una lista anidada de Python

Si tengo una lista html (no ordenada) anidada que se ve así: Page1_Level1 Page1_Level2 Page1_Level3 Page2_Level3 Page3_Level3 Page2_Level1 Page2_Level2 ¿Cómo formo una lista anidada de Python? Por ejemplo: [“https://stackoverflow.com/questions/24216263/converting-html-list-to-nested-python-list/Page1_Level1.html”, [“https://stackoverflow.com/questions/24216263/converting-html-list-to-nested-python-list/Page1_Level2.html”, [“Page1_Leve3.html”, “https://stackoverflow.com/questions/24216263/converting-html-list-to-nested-python-list/Page2_Level3.html”, “https://stackoverflow.com/questions/24216263/converting-html-list-to-nested-python-list/Page3_Level3.html”]], “https://stackoverflow.com/questions/24216263/converting-html-list-to-nested-python-list/Page2_Level1.html”, [“https://stackoverflow.com/questions/24216263/converting-html-list-to-nested-python-list/Page2_Level2.html”]] Supongo que bibliotecas como Beautiful Soup y HTML Parser tienen facilidades para hacer esto, pero no he podido resolverlo. Gracias […]

Tratar con dos puntos en los selectores de CSS BeautifulSoup

HTML de entrada: apple peach cucumber La salida deseada: todos los elementos div exactamente debajo de . Estoy tratando de localizar el div padre con un selector de CSS : div[style=”display: flex”] Esto arroja un error: >>> soup.select(‘div[style=”display: flex”]’) Traceback (most recent call last): File “”, line 1, in File “/Users/user/.virtualenvs/so/lib/python2.7/site-packages/bs4/element.py”, line 1400, in select […]

Análisis de la lista HTML anidada con BeautifulSoup

Necesito analizar una lista HTML anidada y convertirla en un dict de padres e hijos. Dada esta lista: Operating System Linux Debian Fedora Ubuntu Windows OS X Programming Languages Python C# Ruby Quiero convertirlo en un dict como este: { ‘Operating System’: { ‘Linux’: { ‘Debian’: None, ‘Fedora’: None, ‘Ubuntu’: None, }, ‘Windows’: None, ‘OS […]

BeautifulSoup: una forma fácil de obtener contenidos sin HTML

Estoy usando este código para encontrar todos los enlaces interesantes en una página: soup.findAll(‘a’, href=re.compile(‘^notizia.php\?idn=\d+’)) Y hace su trabajo bastante bien. Desafortunadamente, dentro de esa etiqueta hay muchas tags anidadas, como fonts , letras y cosas diferentes … Me gustaría obtener solo el contenido del texto, sin ninguna otra etiqueta html. Ejemplo de enlace: 03-11-2009:  CCS […]

Análisis de HTML con Python 2.7: HTMLParser, SGMLParser o Beautiful Soup?

Quiero realizar algunos HTMLParser pantalla con Python 2.7, y no tengo contexto para las diferencias entre HTMLParser , HTMLParser o Beautiful Soup. ¿Están todos tratando de resolver el mismo problema, o existen por diferentes razones? ¿Cuál es la más simple, la más robusta y cuál (si la hay) es la opción predeterminada? Además, avíseme si […]

Analizando una tabla con rowpan y colspan

Tengo una tabla que necesito analizar, específicamente es un horario escolar con 4 bloques de tiempo y 5 bloques de días para cada semana. He intentado analizarlo, pero, honestamente, no he llegado muy lejos porque me he quedado atascado en cómo tratar con los atributos de rowpan y colspan, porque esencialmente significan que hay una […]

Selenio: iteración a través de grupos de elementos.

He hecho esto con BeautifulSoup, pero es un poco engorroso, y estoy tratando de averiguar si puedo hacerlo directamente con Selenium. Digamos que tengo el siguiente HTML, que se repite varias veces en la fuente de la página con elementos idénticos pero con contenidos diferentes: John Smith SalesForce Necesito crear un diccionario donde la entrada […]

BeautifulSoup HTML tabla de análisis

Estoy intentando analizar información (tablas html) de este sitio: http://www.511virginia.org/RoadConditions.aspx?j=All&r=1 Actualmente estoy usando BeautifulSoup y el código que tengo se ve así from mechanize import Browser from BeautifulSoup import BeautifulSoup mech = Browser() url = “http://www.511virginia.org/RoadConditions.aspx?j=All&r=1” page = mech.open(url) html = page.read() soup = BeautifulSoup(html) table = soup.find(“table”) rows = table.findAll(‘tr’)[3] cols = rows.findAll(‘td’) roadtype […]