Articles of web scraping

¿Cuál es la legalidad de raspar los datos de youtube?

Si desechamos los datos de youtube y solo mostramos el contenido que se está raspando. ¿Es legal o ilegal? La misma pregunta que quiero preguntar sobre el uso de la API de youtube también. ¿Alguien por favor puede sugerir.

Datos de raspado web de un gráfico interactivo

¿Sería posible obtener los datos detrás del gráfico interactivo en esta página web (lo siento, el sitio web requiere inicio de sesión)? Cuando muevo el mouse sobre el gráfico, aparecen los datos, pero ¿cómo obtengo esos datos? Aquí hay un extracto del código fuente HTML de ese sitio web: Created with Raphaël 2.1.0 <path style="opacity: […]

Web Scraper para formas dinámicas en python

Estoy tratando de llenar el formulario de este sitio web http://www.marutisuzuki.com/Maruti-Price.aspx . Se compone de tres listas desplegables. Uno es el modelo del automóvil, el segundo es el estado y el tercero es la ciudad. Los dos primeros son estáticos y el tercero, la ciudad se genera dinámicamente según el valor del estado, se ejecuta […]

¿Cómo puedo representar JavaScript HTML a HTML en Python?

He mirado a mi alrededor y solo he encontrado soluciones que representan una URL a HTML. Sin embargo, necesito una forma de poder representar una página web (que ya tengo, y que tiene JavaScript) al HTML adecuado. Querer: Página web (con JavaScript) —> HTML No: URL -> Página web (con JavaScript) —> HTML No pude […]

Encontrar texto de enlace específico con bs4

Estoy intentando raspar un sitio web y encontrar todos los encabezados de un feed. Estoy teniendo problemas para obtener el texto de la etiqueta que necesito. Aquí hay un ejemplo del html. TF4 – Oreos (0) Awesome Game Boy Facts (0) Estoy tratando de obtener el texto para cada etiqueta con un ID de c […]

Utilice BeautifulSoup para obtener un valor después de una etiqueta específica

Me está costando mucho conseguir que BeautifulSoup raspe algunos datos para mí. ¿Cuál es la mejor manera de acceder a la fecha (los números reales, 2008) desde este ejemplo de código? Es la primera vez que utilizo Beautifulsoup, he descubierto cómo eliminar las URL de la página, pero no puedo restringirlas solo para seleccionar la […]

Hermosa sopa y raspado de mesa – analizador lxml vs html

Estoy intentando extraer el código HTML de una tabla de una página web usando BeautifulSoup. … Me gustaría saber por qué el código de abajo funciona con “html.parser” y no se imprime si cambio “html.parser” por “lxml” . #! /usr/bin/python from bs4 import BeautifulSoup from urllib import urlopen webpage = urlopen(‘http://www.thewebpage.com’) soup=BeautifulSoup(webpage, “html.parser”) table = […]

Renombrar archivos descargados de selenium

Estoy usando Selenium para descargar automáticamente archivos en formato CSV desde esta página: https://catalog.data.gov/dataset?tags=crime Este es el código que estoy usando: profile = webdriver.FirefoxProfile() profile.set_preference(“browser.download.folderList”, 2) profile.set_preference(“browser.download.manager.showWhenStarting”, False) profile.set_preference(“browser.download.dir”, ‘/home/luis/Desktop/data/’) profile.set_preference(“browser.helperApps.neverAsk.saveToDisk”, “text/csv”) driver = webdriver.Firefox(firefox_profile=profile) driver.get(url) time.sleep(2) download_button = driver.find_element_by_xpath(‘//*[@id=”content”]/div[2]/div[2]/section[1]/div[2]/ul/li[14]/div/ul/li[1]/a’) download_button.click() Aquí se establece la carpeta de descarga: profile.set_preference(“browser.download.dir”, ‘/home/luis/Desktop/data/’) ¿Cómo puedo seleccionar el nombre […]

Cómo raspar páginas web HTTPS javascript

Estoy tratando de controlar los precios del día a día desde un catálogo en línea. El sitio utiliza HTTPS y genera las páginas del catálogo con javascript. ¿Cómo puedo interactuar con el sitio y hacer que genere las páginas que necesito? He hecho esto con otros sitios donde se puede acceder fácilmente al HTML, no […]

¿lxml / peticiones puede seleccionar las opciones desplegables y luego analizar ajax resultante?

Tengo un sitio que estoy intentando probar y, aunque puedo obtener una lista de opciones en un menú desplegable, ¿no estoy seguro de cómo seleccionarlo? No hay un botón de envío, de modo que si lo selecciono, se cargará una tabla ajax a continuación. ¿No estoy seguro de si lxml / request puede hacer esto […]