Articles of beautifulsoup

¿Hay alguna forma de sopa hermosa para contar el número de tags en una página html?

Estoy buscando crear un diccionario en python donde la clave sea el nombre de la etiqueta html y el valor sea la cantidad de veces que apareció la etiqueta. ¿Hay una manera de hacer esto con una sopa hermosa o algo más?

Amazon web scraping

Estoy tratando de raspar los precios de Amazon con phantomjs y python. Quiero analizarlo con una sopa hermosa, para obtener los precios nuevos y usados ​​de los libros, el problema es: cuando paso la fuente de la solicitud que hago con phantomjs, los precios son solo 0,00, el código es esta prueba simple. Soy nuevo […]

raspando los datos de un gráfico dynamic usando python + beautifulSoup4

Necesito implementar una tarea de raspado de datos y extraer datos de un gráfico dynamic. El gráfico se actualiza con un tiempo similar al que encontraría si observara el gráfico de las acciones de una empresa. Estoy usando las solicitudes y la biblioteca beautifulsoup4 en python, pero solo he descubierto cómo raspar el texto y […]

BeautifulSoup: raspe HTML solo accesible después de hacer clic en “Aceptar” en la misma URL

Estoy tratando de raspar algo de información de una determinada URL. Llamémoslo: www.foo.bar/baz Cuando accede a esa URL con un navegador web, aparece el botón habitual “Tengo más de 18 años”. La URL no cambia y el contenido real solo se carga al hacer clic manualmente en dicho botón. Me gustaría “simular” ese clic en […]

Cómo obtener varias clases en una consulta usando Beautiful Soup

Quiero encontrar td con class = “s” o class = “sb” en el siguiente html test15,774.04,481.05,444.06,615.06,858.0 test25,774.04,481.05,444.06,615.06,858.0 Estoy usando el siguiente código ahora mismo. Pero solo se puede obtener la clase igual a “S”. ¿Es posible obtener tanto “s” como “sb” en una consulta de búsqueda de sopa de Beautiful Soup? soup = BeautifulSoup(urllib2.urlopen(url).read(),”lxml”); for […]

Proceso repetitivo para seguir enlaces en un sitio web (BeautifulSoup)

Estoy escribiendo un código en Python para obtener todas las tags ‘a’ en una URL usando Beautiful soup, luego uso el enlace en la posición 3, luego debo seguir ese enlace, repetiré este proceso unas 18 veces. Incluí el siguiente código, que repite el proceso dos veces. No puedo encontrar una manera de repetir el […]

HTML y BeautifulSoup: ¿cómo analizar de forma iterativa cuando la estructura no siempre se conoce de antemano?

Comencé con una estructura HTML simple, algo como esto: Gracias a la ayuda de @alecxe, pude crear este dictado JSON: {u’Outer List’: {u’Inner List’: [u’info 1′, u’info 2′, u’info 3′]}} usando su código: from bs4 import BeautifulSoup data = “””your html goes here: see the very end of post””” soup = BeautifulSoup(data) inner_ul = soup.find(‘ul’, […]

Obtener una estructura de código HTML

Estoy usando BeautifulSoup4 y tengo curiosidad por saber si hay una función que devuelva una estructura (tags ordenadas) del código HTML. Aquí hay un ejemplo: Simple example This is a simple example of html page imprimir page.structure () : >> Intenté encontrar una solución pero no tuve éxito. Gracias

HTML en descomposición para enlazar texto y destino

Dado un enlace HTML como texttxt ¿Cómo puedo aislar la url y el texto? Actualizaciones Estoy usando Beautiful Soup, y soy incapaz de averiguar cómo hacerlo. yo si soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url)) links = soup.findAll(‘a’) for link in links: print “link content:”, link.content,” and attr:”,link.attrs yo obtengo *link content: None and attr: [(u’href’, u’_redirectGeneric.asp?genericURL=/root /support.asp’)]* … […]

¿Cómo raspar la página con BeautifulSoup? La fuente de la página no coincide Inspeccionar elemento

Estoy tratando de eliminar algunas cosas de esta página de baloncesto de fantasía . Estoy usando BeautifulSoup en Python 3.5+ para hacer esto. source_code = requests.get(‘http://fantasy.espn.com/basketball/league/standings?leagueId=633975’) plain_text = source_code.text soup = BeautifulSoup(plain_text, ‘lxml’) Para empezar, me gustaría raspar los títulos de las 9 categorías en una lista de Python. Así que mi lista debería verse […]