Articles of scraping

Chromedriver usando selenium para raspar

Estoy intentando cargar el controlador web de Chrome usando selenium al mando pero obtengo un error 1) He actualizado mi navegador y el controlador web de Chrome a la última versión 2) revisado usando la misma versión del navegador y el controlador de Chrome from selenium import webdriver driver=webdriver.Chrome(‘C:/Users/prasun.j/Desktop/chromedriver’) Espero abrir una ventana del navegador […]

Web raspando contenido dynamic con python

Me gustaría usar Python para raspar el contenido del cuadro “¿Estabas buscando a estos autores?” En páginas web como esta: http://academic.research.microsoft.com/Search?query=lander Desafortunadamente los contenidos de la caja se cargan dinámicamente por JavaScript. Por lo general, en esta situación puedo leer el Javascript para averiguar qué está pasando, o puedo usar una extensión del navegador como […]

No se pueden almacenar los archivos descargados en sus carpetas correspondientes

He escrito un script en python en combinación con selenium para descargar algunos archivos de documentos (que terminan con .doc) desde una página web. La razón por la que no deseo utilizar las requests o el módulo urllib para descargar los archivos es porque el sitio web con el que estoy trabajando actualmente no tiene […]

Desplazamiento de la página web utilizando webdriver python de selenium

Estoy raspando esta página web para los nombres de usuario que cargan a los usuarios después de desplazarme Url a la página: ” http://www.quora.com/Kevin-Rose/followers ” Sé el número de usuarios en la página (en este caso, el número es 43812) ¿Cómo puedo desplazarme por la página hasta que todos los usuarios estén cargados? He buscado […]

Selenio No se puede localizar el elemento (Python) WebScraping

Estoy tratando de raspar un sitio web de bienes raíces para los anuncios. Tiene un formulario aspx que debe completarse antes de enviarlo. http://www.cbre.us/PropertyListings/Pages/Properties-for-Sale.aspx Sin embargo, todo lo que me importa es propiedades multifamiliares en Oregon. Así que este fue mi primer bash: driver = webdriver.Firefox() driver.get(“http://www.cbre.us/PropertyListings/Pages/Properties-for-Sale.aspx”) #Searching for multifamily residences selectPropertyType = driver.find_element_by_id(“ForSalePropertyType”) selectPropertyType.select_by_value(“70”) […]

¿Cómo navegar por todo un sitio web utilizando selenium?

¿Es posible pasar por todos los URI de una URL determinada (sitio web) utilizando selenium ? Mi objective es lanzar el navegador Firefox usando Selenium con una URL determinada de mi elección (sé cómo hacerlo gracias a este sitio web), y luego dejar que Firefox navegue por todas las páginas que tiene la URL (sitio […]

Error de Python Selenium al intentar lanzar Firefox

Recibo un error al intentar abrir Firefox usando Selenium en una notebook ipython. He mirado a mi alrededor y he encontrado errores similares, pero nada que coincida exactamente con el error que estoy recibiendo. ¿Alguien sabe cuál podría ser el problema y cómo lo soluciono? Estoy usando Firefox 22. El código que escribí fue el […]

¿Cómo raspar esta página de squawka?

Estoy tratando de extraer la siguiente información: En la pagina http://epl.squawka.com/stoke-city-vs-arsenal/01-03-2014/english-barclays-premier-league/matches Al presionar el botón rojo “estadísticas completas” se abre un menú que incluye (en el lado izquierdo) el botón “Cruces”. Esto abre, en el lado derecho de la pantalla, una imagen de un campo de fútbol con 19 flechas, estos son los pases cruzados […]

Beautiful Soup 4 find_all no encuentra enlaces que encuentra Beautiful Soup 3

Noté un error realmente molesto: BeautifulSoup4 (paquete: bs4 ) a menudo encuentra menos tags que la versión anterior (paquete: BeautifulSoup ). Aquí hay una instancia reproducible de ese problema: import requests import bs4 import BeautifulSoup r = requests.get(‘http://wordpress.org/download/release-archive/’) s4 = bs4.BeautifulSoup(r.text) s3 = BeautifulSoup.BeautifulSoup(r.text) print ‘With BeautifulSoup 4 : {}’.format(len(s4.findAll(‘a’))) print ‘With BeautifulSoup 3 : […]