Tengo un sitio web en el que me gustaría hacer clic en un botón para luego raspar el sitio web usando Python. El código html entre los botones es:
Testing
es posible? Puedo eliminar todos los datos que necesito de la página, pero primero debo hacer clic en el botón.
Cualquier ayuda sería apreciada
Básicamente, tienes dos opciones:
Enfoque de alto nivel : automatice un navegador real utilizando selenium
o, en otras palabras, haga que el navegador repita todas las acciones del usuario necesarias para llegar a la página con los datos deseados.
enfoque de bajo nivel : cuando hace clic en el botón, investigue qué está sucediendo debajo del capó: explore la pestaña “Red” de las herramientas de desarrollo del navegador y vea qué solicitudes se están realizando. Luego, simúlalas en tu raspador. Aquí, puede considerar utilizar herramientas como requests
, mechanize
para realizar solicitudes, manejar sesiones de raspado, enviar formularios, etc. y herramientas como BeautifulSoup
, lxml.html
para el análisis de HTML. Además, Scrapy
web-scraping framework es una visita obligada.