Articles of scrapy

¿Cómo detener la araña de chatarra después de cierto número de solicitudes?

Estoy desarrollando un raspador simple para obtener 9 publicaciones de gag y sus imágenes, pero debido a algunas dificultades técnicas, no puedo detener el raspador y sigue raspando lo que no quiero. Quiero boost el valor del contador y detenerme después de 100 mensajes. Pero la página 9gag se diseñó de manera que en cada […]

Cómo actualizar DjangoItem en Scrapy

He estado trabajando con Scrapy pero tengo un pequeño problema. DjangoItem tiene un método para save elementos persistentes usando el ORM de Django. Esto es genial, excepto que si ejecuto un raspador varias veces, se crearán nuevos elementos en la base de datos, aunque es posible que solo quiera actualizar un valor anterior. Después de […]

¿Cómo ejecutar el proyecto Scrapy en Jupyter?

En una Mac, tengo instalado Jupyter y cuando jupyter notebook desde la carpeta raíz de mi proyecto de Scrapy, se abre la notebook. Puedo navegar todos los archivos del proyecto en este punto. ¿Cómo ejecuto el proyecto desde el cuaderno? Si hago clic en la pestaña En ejecución, debajo de Terminales, veo: There are no […]

Raspado con Scrapy y Selenio

Tengo una araña de chatarra que rastrea un sitio que recarga contenido a través de javascript en la página. Para pasar a la siguiente página para raspar, he estado usando Selenium para hacer clic en el enlace del mes en la parte superior del sitio. El problema es que, aunque mi código se mueve a […]

¿Ejecución de múltiples arañas en scrapy para 1 sitio web en paralelo?

Quiero rastrear un sitio web con 2 partes y mi script no es tan rápido como lo necesito. ¿Es posible lanzar 2 arañas, una para raspar la primera parte y la segunda para la segunda parte? Intenté tener 2 clases diferentes, y ejecutarlas scrapy crawl firstSpider scrapy crawl secondSpider Pero creo que no es inteligente. […]

Scrapy – Reactor no reiniciable

con: from twisted.internet import reactor from scrapy.crawler import CrawlerProcess Siempre he ejecutado este proceso con éxito: process = CrawlerProcess(get_project_settings()) process.crawl(*args) # the script will block here until the crawling is finished process.start() pero desde que moví este código a una función web_crawler(self) , así: def web_crawler(self): # set up a crawler process = CrawlerProcess(get_project_settings()) process.crawl(*args) […]

conseguir Prohibido por robots.txt: scrapy

mientras rastrea el sitio web como https://www.netflix.com , quedando prohibido por robots.txt: https://www.netflix.com/> ERROR: No se ha descargado ninguna respuesta para: https://www.netflix.com/

Scrapy y código de estado de respuesta: ¿cómo verificarlo?

Estoy usando scrapy para rastrear mi mapa del sitio, para verificar 404, 302 y 200 páginas. Pero parece que no puedo obtener el código de respuesta. Este es mi código hasta ahora: from scrapy.contrib.spiders import SitemapSpider class TothegoSitemapHomesSpider(SitemapSpider): name =’tothego_homes_spider’ ## robe che ci servono per tothego ## sitemap_urls = [] ok_log_file = ‘/opt/Workspace/myapp/crawler/valid_output/ok_homes’ bad_log_file […]

usando scrapy para raspar el sitio web asp.net con botones javascript y solicitudes ajax

Había estado tratando de obtener alguna fecha del sitio web asp.net, la página de inicio debería ser la siguiente: http://www.e3050.com/Items.aspx?cat=SON Primero, quiero mostrar 50 elementos por página (del elemento seleccionado). Segundo, quiero paginar a través de las páginas. Probé el siguiente código para 50 artículos por página, pero no funcionó: start_urls = [“http://www.e3050.com/Items.aspx?cat=SON”] def parse(self, […]

Python Scrapy en datos fuera de línea (locales)

Tengo un conjunto de datos de 270MB (10000 archivos html) en mi computadora. ¿Puedo usar Scrapy para rastrear este conjunto de datos localmente? ¿Cómo?