Articles of beautifulsoup

El lector XML parece ignorar la jerarquía de tags

En un archivo XML, estoy tratando de obtener el contenido de una etiqueta que aparece varias veces en diferentes niveles en la jerarquía de tags. Estoy tratando de obtener el contenido del nivel más alto de aparición de la etiqueta, pero mi lector XML (BeautifulSoup for Python) sigue dándome el contenido incorrecto. Aquí está el […]

Python – Solicitudes / RoboBrowser – ASPX POST JavaScript

Estoy portando un script de bash que utiliza curl y POST las cargas útiles en el código a las URL y funciona. El problema básico es que, con robobrowser, tengo problemas para publicar utilizando los formularios de la página. Caminando por el sitio: Inicie sesión en /SubLogin.aspx El inicio de sesión exitoso redirige /OptionsSummary.aspx GET […]

¿Cómo decirle a BeautifulSoup que extraiga el contenido de una etiqueta específica como texto? (sin tocarlo)

Necesito analizar un documento html que contiene tags de “código” Estoy obteniendo los bloques de código como este: soup = BeautifulSoup(str(content)) code_blocks = soup.findAll(‘code’) El problema es que, si tengo una etiqueta de código como esta: List persons = new List(); BeautifulSoup forse el cierre de tags anidadas y transforma el bloque de código en: […]

Encontrar texto de enlace específico con bs4

Estoy intentando raspar un sitio web y encontrar todos los encabezados de un feed. Estoy teniendo problemas para obtener el texto de la etiqueta que necesito. Aquí hay un ejemplo del html. TF4 – Oreos (0) Awesome Game Boy Facts (0) Estoy tratando de obtener el texto para cada etiqueta con un ID de c […]

escapando caracteres en un archivo xml con python

Necesito escapar de caracteres especiales en un archivo XML feo (5000 líneas o tanto). Aquí hay un ejemplo de XML con el que tengo que lidiar: name & surname name@name.org Aquí el problema es el carácter “&” en el nombre. ¿Cómo escaparías de caracteres especiales como este con una biblioteca de Python? No encontré la […]

Tener problemas para entender el filtro de BeautifulSoup

¿Podría alguien explicar por favor cómo funciona el filtrado con Beautiful Soup? Tengo el siguiente código HTML del que estoy tratando de filtrar datos específicos pero parece que no puedo acceder a ellos. He intentado varios enfoques, desde reunir todas las class=g hasta obtener los elementos de interés en esa división específica, pero solo obtengo […]

Utilice BeautifulSoup para obtener un valor después de una etiqueta específica

Me está costando mucho conseguir que BeautifulSoup raspe algunos datos para mí. ¿Cuál es la mejor manera de acceder a la fecha (los números reales, 2008) desde este ejemplo de código? Es la primera vez que utilizo Beautifulsoup, he descubierto cómo eliminar las URL de la página, pero no puedo restringirlas solo para seleccionar la […]

Hermosa sopa y raspado de mesa – analizador lxml vs html

Estoy intentando extraer el código HTML de una tabla de una página web usando BeautifulSoup. … Me gustaría saber por qué el código de abajo funciona con “html.parser” y no se imprime si cambio “html.parser” por “lxml” . #! /usr/bin/python from bs4 import BeautifulSoup from urllib import urlopen webpage = urlopen(‘http://www.thewebpage.com’) soup=BeautifulSoup(webpage, “html.parser”) table = […]

Análisis de la página HTML usando beautifulsoup

Comencé a trabajar en beautifulsoup para analizar HTML. por ejemplo, para el sitio ” http://en.wikipedia.org/wiki/PLCB1 ” import sys sys.setrecursionlimit(10000) import urllib2, sys from BeautifulSoup import BeautifulSoup site= “http://en.wikipedia.org/wiki/PLCB1” hdr = {‘User-Agent’: ‘Mozilla/5.0’} req = urllib2.Request(site,headers=hdr) page = urllib2.urlopen(req) soup = BeautifulSoup(page) table = soup.find(‘table’, {‘class’:’infobox’}) #print table rows = table.findAll(“th”) for x in rows: print […]

¿Qué debo hacer cuando tiene rowpan

Si la fila tiene un elemento rowpan, cómo hacer que la fila corresponda a la tabla como en la página de Wikipedia. from bs4 import BeautifulSoup import urllib2 from lxml.html import fromstring import re import csv import pandas as pd wiki = “http://en.wikipedia.org/wiki/List_of_England_Test_cricket_records” header = {‘User-Agent’: ‘Mozilla/5.0’} #Needed to prevent 403 error on Wikipedia req […]