Articles of beautifulsoup

Comprender la función Find () en Beautiful Soup

Sé que lo que estoy tratando de hacer es simple, pero me está causando dolor. Me gustaría extraer datos de HTML utilizando BeautifulSoup. Para hacer eso necesito usar correctamente la función .find() . Aquí está el HTML con el que estoy trabajando: Ed Boon @noobde 73,599 Real 32,452 Fake Followers 69% Audit score Los valores […]

¿Cómo itero sobre los atributos HTML de un elemento Beautiful Soup?

¿Cómo itero sobre los atributos HTML de un elemento Beautiful Soup? Me gusta, dado: xyz Quiero “bar” y “bla”.

Raspado web de Python con tags HTML con atributos

Estoy tratando de hacer un raspador web que analice una página web de publicaciones y extraiga a los autores. La estructura esquelética de la página web es la siguiente: ####I want whatever is located here ### He estado intentando usar BeautifulSoup y lxml hasta ahora para realizar esta tarea, pero no estoy seguro de cómo […]

beautifulSoup html csv

Buenas noches, he usado BeautifulSoup para extraer algunos datos de un sitio web de la siguiente manera: from BeautifulSoup import BeautifulSoup from urllib2 import urlopen soup = BeautifulSoup(urlopen(‘http://www.fsa.gov.uk/about/media/facts/fines/2002’)) table = soup.findAll(‘table’, attrs={ “class” : “table-horizontal-line”}) print table Esto da el siguiente resultado: [ Amount Company or person fined Date What was the fine for? Compensation […]

BeautifulSoup, pero para CSS?

BeautifulSoup analiza HTML y ofrece varias formas de manipular y buscar dentro de HTML. ¿Hay algo similar para CSS? Específicamente, me gustaría saber si un texto HTML dado se representa en negrita . O tiene un ancestro que es la etiqueta o (que se puede hacer con BeautifulSoup), o tiene un ancestro (o él mismo) […]

¿Cómo puedo insertar una nueva etiqueta en un objeto BeautifulSoup?

Tratando de conseguir mi cabeza alrededor de la construcción html con BS. Estoy tratando de insertar una nueva etiqueta: self.new_soup.body.insert(3, “”””””) Cuando verifico el resultado, obtengo: <div id=”file_histor”y></div> Así que estoy insertando una cadena que está siendo saneada para websafe html .. Lo que espero ver es: ¿Cómo inserto una nueva etiqueta div en la […]

HTTPError: HTTP Error 403: Prohibido

Estoy creando un script en Python para uso personal pero no funciona para wikipedia … Este trabajo: import urllib2, sys from bs4 import BeautifulSoup site = “http://youtube.com” page = urllib2.urlopen(site) soup = BeautifulSoup(page) print soup Esto no funciona: import urllib2, sys from bs4 import BeautifulSoup site= “http://en.wikipedia.org/wiki/StackOverflow” page = urllib2.urlopen(site) soup = BeautifulSoup(page) print soup […]

Beautifulsoup selector de clase múltiple

Quiero seleccionar todos los divs que tienen AMBOS A y B como atributos de clase. La siguiente seleccion soup.findAll(‘div’, class_=[‘A’, ‘B’]) sin embargo, selecciona todos los divs que tengan O A o B en sus atributos de clase. Las clases pueden tener muchos otros atributos (C, D, etc.) en cualquier orden, pero quiero seleccionar solo […]

Python 2.7: ¿Cómo usar BeautifulSoup en Google App Engine?

Estoy tratando de seguir: from bs4 import BeautifulSoup y obtuve el error Traceback (most recent call last): File “/Applications/GoogleAppEngineLauncher.app/Contents/Resources/GoogleAppEngine-default.bundle/Contents/Resources/google_appengine/google/appengine/ext/admin/__init__.py”, line 355, in post exec(compiled_code, globals()) File “”, line 1, in ImportError: No module named bs4 ¿Cómo puedo usarlo con Google App Engine runtime 2.7 ? Actualizar Mi estructura de proyecto se parece a flask-appengine-template/ docs/ […]

UnicodeEncodeError al escribir en un archivo

Estoy tratando de escribir algunas cadenas en un archivo (las cadenas me las ha dado el analizador de HTML BeautifulSoup). Puedo usar “imprimir” para mostrarlos, pero cuando uso file.write () obtengo el siguiente error: UnicodeEncodeError: ‘ascii’ codec can’t encode character u’\xa3′ in position 6: ordinal not in range(128) ¿Cómo puedo analizar esto?