Articles of beautifulsoup

Hermosa sopa falta algunas tags de tabla html

Estoy tratando de extraer datos de un sitio web usando una sopa hermosa para analizar el html. Actualmente estoy tratando de obtener los datos de la tabla de la siguiente página web: enlace a la página web Quiero obtener los datos de la tabla. Primero guardo la página como un archivo html en mi computadora […]

Python web scraping, contando la aparición de una lista de palabras de cada página

Así que estoy tratando de encontrar un conjunto de palabras específicas (“deberá” “puede” “deber”, etc.) de cada página, y sumr su aparición, el código que usé import requests from bs4 import BeautifulSoup, SoupStrainer import re def levelfour(main_url): pattern = re.compile(r”\bmay not\b”, re.IGNORECASE) pattern1 = re.compile(r”\bshall\b”, re.IGNORECASE) pattern2 = re.compile(r”\bmust\b”, re.IGNORECASE) pattern3 = re.compile(r”\bprohibited\b”, re.IGNORECASE) pattern4 […]

Seleccione todos los hermanos div utilizando BeautifulSoup

Tengo un archivo html que tiene una estructura como la siguiente: </div Me gustaría seleccionar todos los div hermanos sin seleccionar div nesteds en el tercer y cuarto bloque. Si uso find_all() obtengo todos los divs.

Para bucle en función, si bien verdadera dificultad para entender.

Puse esta sencilla secuencia de comandos de Web Weather Scraping , para verificar la temperatura en un lugar determinado. El código funciona perfectamente, aunque puede que no sea la mejor o la versión más limpia. Aún aprendiendo. Pero es raspado: 67 de AQUÍ . #!/usr/bin/python # -*- coding: utf-8 -*- import requests from BeautifulSoup import […]

web raspar datos de un mapa con puntos cliqueables

Estoy intentando raspar los precios, la marca y la ubicación de la gasolina desde el siguiente sitio web. https://www.motormouth.com.au/ Tiene un mapa interactivo con ubicaciones seleccionables marcadas en varios colores. Parece que hace una llamada a la API cuando hace clic en una ubicación de color, pero el contenido de la respuesta no contiene los […]

Análisis profundo con beautifulsoup

Intento analizar https://www.drugbank.ca/drugs . La idea es extraer todos los nombres de los medicamentos y cierta información adicional para cada medicamento. Como puede ver, cada página web representa una tabla con los nombres de los medicamentos y cuando pulsamos el nombre del medicamento podemos acceder a esta información del medicamento. Digamos que mantendré el siguiente […]

Raspado de ‘N’ páginas con Beautifulsoup y Solicitudes (Cómo obtener el número de página verdadero)

Quiero obtener todos los títulos () en el sitio web. http://www.shyan.gov.cn/zwhd/web/webindex.action Ahora, mi código raspa con éxito solo una página. Sin embargo, hay varias páginas disponibles en el sitio de arriba en el que me gustaría hacer una copia. Por ejemplo, con la url anterior, cuando hago clic en el enlace a “página 2”, la […]

Python beautifulsoup intenta eliminar las tags html ‘span’

Estoy tratando de quitar [ 510 E Airline Way ] y he usado esta función de limpieza para eliminar la que está entre def clean(val): if type(val) is not StringType: val = str(val) val = re.sub(r”, ”,val) val = re.sub(“\s+” , ” “, val) return val.strip() y produce [ 510 E Airline Way ] Estoy […]

Raspe los datos de una mesa deportiva con Python y Beautiful soup

Intento eliminar los datos de una tabla, a saber ( http://stats.nba.com/leagueTeamGeneral.html?pageNo=1&rowsPerPage=30 ). Estoy teniendo dificultades con el uso de los comandos correctos. Probé varios parámetros, ninguno funcionó. Lo ideal sería tener los datos devueltos en el formato, por ejemplo: Atlanta Hawks, 32, 48.8, 18, 14, .563, etc. Puedo formatear los datos sin problemas, solo obtener […]

Python extrae atributos de tags HTML sin expresiones regulares

¿Hay alguna forma de utilizar urlib , urllib2 o BeautifulSoup para extraer los atributos de las tags HTML? por ejemplo: https://stackoverflow.com/questions/7141431/python-extracting-html-tag-attributes-without-regular-expressions/xyz obtiene href=https://stackoverflow.com/questions/7141431/python-extracting-html-tag-attributes-without-regular-expressions/xyz, title=https://stackoverflow.com/questions/7141431/python-extracting-html-tag-attributes-without-regular-expressions/xyz Hay otro hilo hablando de usar expresiones regulares. Gracias