Articles of rastreador

Scrapy – Reactor no reiniciable

con: from twisted.internet import reactor from scrapy.crawler import CrawlerProcess Siempre he ejecutado este proceso con éxito: process = CrawlerProcess(get_project_settings()) process.crawl(*args) # the script will block here until the crawling is finished process.start() pero desde que moví este código a una función web_crawler(self) , así: def web_crawler(self): # set up a crawler process = CrawlerProcess(get_project_settings()) process.crawl(*args) […]

conseguir Prohibido por robots.txt: scrapy

mientras rastrea el sitio web como https://www.netflix.com , quedando prohibido por robots.txt: https://www.netflix.com/> ERROR: No se ha descargado ninguna respuesta para: https://www.netflix.com/

Python Scrapy en datos fuera de línea (locales)

Tengo un conjunto de datos de 270MB (10000 archivos html) en mi computadora. ¿Puedo usar Scrapy para rastrear este conjunto de datos localmente? ¿Cómo?

¿Cómo detengo todas las arañas y el motor inmediatamente después de que se cumple una condición en una tubería?

Tenemos un sistema escrito con chatarra para rastrear algunos sitios web. Hay varias arañas y algunas tuberías en cascada para todos los elementos que pasan todos los rastreadores. Uno de los componentes de la canalización consulta a los servidores de Google las direcciones de geoencoding . Google impone un límite de 2500 solicitudes por día […]

Haga clic en un botón en Scrapy

Estoy usando Scrapy para rastrear una página web. Parte de la información que necesito solo aparece cuando haces clic en un botón determinado (por supuesto, también aparece en el código HTML después de hacer clic). Descubrí que Scrapy puede manejar formularios (como inicios de sesión) como se muestra aquí . Pero el problema es que […]

¿Cómo puedo usar diferentes tuberías para diferentes arañas en un solo proyecto Scrapy?

Tengo un proyecto desechable que contiene múltiples arañas. ¿Hay alguna manera en que pueda definir qué tuberías usar para cada araña? No todas las tuberías que he definido son aplicables para todas las arañas. Gracias

Creando una araña scrapy genérica

Mi pregunta es realmente cómo hacer lo mismo que una pregunta anterior, pero en Scrapy 0.14. Usando una araña Scrapy para varios sitios web Básicamente, tengo una GUI que toma parámetros como dominio, palabras clave, nombres de tags, etc. y quiero crear una araña genérica para rastrear esos dominios para esas palabras clave en esas […]

Scrapy CrawlSpider no rastrea la primera página de destino

Soy nuevo en Scrapy y estoy trabajando en un ejercicio de raspado y estoy usando CrawlSpider. Aunque el marco de Scrapy funciona a la perfección y sigue los enlaces relevantes, parece que no puedo hacer que CrawlSpider raspe el primer enlace (la página de inicio / página de inicio). En su lugar, va directamente a […]