Articles of rastreador

¿Minería web o raspado o rastreo? ¿Qué herramienta / biblioteca debo usar?

Quiero rastrear y guardar algunas páginas web como HTML. Por ejemplo, ingrese a cientos de sitios web populares y simplemente guarde sus portadas y las páginas “Acerca de”. He investigado muchas preguntas, pero no encontré una respuesta a esta pregunta, ya sea a través del rastreo web o las preguntas sobre raspado web. ¿Qué biblioteca […]

Cómo limitar el número de páginas seguidas por sitio en Python Scrapy

Estoy tratando de construir una araña que podría raspar de manera eficiente la información de texto de muchos sitios web. Como soy un usuario de Python, me recomendaron Scrapy. Sin embargo, para evitar raspar grandes sitios web, quiero limitar la araña a rascar no más de 20 páginas de cierta “profundidad” por sitio web . […]

Scrapy – Reactor no reiniciable

con: from twisted.internet import reactor from scrapy.crawler import CrawlerProcess Siempre he ejecutado este proceso con éxito: process = CrawlerProcess(get_project_settings()) process.crawl(*args) # the script will block here until the crawling is finished process.start() pero desde que moví este código a una función web_crawler(self) , así: def web_crawler(self): # set up a crawler process = CrawlerProcess(get_project_settings()) process.crawl(*args) […]

conseguir Prohibido por robots.txt: scrapy

mientras rastrea el sitio web como https://www.netflix.com , quedando prohibido por robots.txt: https://www.netflix.com/> ERROR: No se ha descargado ninguna respuesta para: https://www.netflix.com/

Python Scrapy en datos fuera de línea (locales)

Tengo un conjunto de datos de 270MB (10000 archivos html) en mi computadora. ¿Puedo usar Scrapy para rastrear este conjunto de datos localmente? ¿Cómo?

¿Cómo detengo todas las arañas y el motor inmediatamente después de que se cumple una condición en una tubería?

Tenemos un sistema escrito con chatarra para rastrear algunos sitios web. Hay varias arañas y algunas tuberías en cascada para todos los elementos que pasan todos los rastreadores. Uno de los componentes de la canalización consulta a los servidores de Google las direcciones de geoencoding . Google impone un límite de 2500 solicitudes por día […]

Haga clic en un botón en Scrapy

Estoy usando Scrapy para rastrear una página web. Parte de la información que necesito solo aparece cuando haces clic en un botón determinado (por supuesto, también aparece en el código HTML después de hacer clic). Descubrí que Scrapy puede manejar formularios (como inicios de sesión) como se muestra aquí . Pero el problema es que […]

¿Cómo puedo usar diferentes tuberías para diferentes arañas en un solo proyecto Scrapy?

Tengo un proyecto desechable que contiene múltiples arañas. ¿Hay alguna manera en que pueda definir qué tuberías usar para cada araña? No todas las tuberías que he definido son aplicables para todas las arañas. Gracias

Creando una araña scrapy genérica

Mi pregunta es realmente cómo hacer lo mismo que una pregunta anterior, pero en Scrapy 0.14. Usando una araña Scrapy para varios sitios web Básicamente, tengo una GUI que toma parámetros como dominio, palabras clave, nombres de tags, etc. y quiero crear una araña genérica para rastrear esos dominios para esas palabras clave en esas […]

Scrapy CrawlSpider no rastrea la primera página de destino

Soy nuevo en Scrapy y estoy trabajando en un ejercicio de raspado y estoy usando CrawlSpider. Aunque el marco de Scrapy funciona a la perfección y sigue los enlaces relevantes, parece que no puedo hacer que CrawlSpider raspe el primer enlace (la página de inicio / página de inicio). En su lugar, va directamente a […]