Articles of scrapy

Scrapy – logueando el archivo y la salida estándar simultáneamente, con nombres de arañas

Decidí usar el módulo de registro de Python porque los mensajes generados por Twisted on std error son demasiado largos, y quiero INFO mensajes significativos como los generados por StatsCollector para escribir en un archivo de registro separado mientras mantengo el mensajes de pantalla. from twisted.python import log import logging logging.basicConfig(level=logging.INFO, filemode=’w’, filename=’buyerlog.txt’) observer = […]

Acelerar el raspador web

Estoy raspando 23770 páginas web con un raspador web bastante simple usando scrapy . Soy bastante nuevo en scrapy e incluso python, pero me las arreglé para escribir una araña que hace el trabajo. Sin embargo, es muy lento (tarda aproximadamente 28 horas en rastrear las 23770 páginas). He buscado en la página web de […]

¿Cómo rastrear miles de páginas usando scrapy?

Estoy buscando rastrear miles de páginas y necesito una solución. Cada sitio tiene su propio código html, todos son sitios únicos. No hay fuente de datos limpia o API disponible. Espero cargar los datos capturados en algún tipo de DB. ¿Alguna idea sobre cómo hacer esto con scrapy si es posible?

Conectar automáticamente en mi cuenta de Gmail con Python Selenium

Estoy intentando iniciar sesión automáticamente con mi cuenta de GMail con Selenium en Python, pero recibo este error: selenium.common.exceptions.ElementNotVisibleException: Message: Element is not currently visible and so may not be interacted with Mi código se ve así: #!/usr/bin/python # coding: utf8 import scrapy from selenium import webdriver from scrapy.selector import Selector from selenium.webdriver.common.action_chains import ActionChains […]

Raspando un sitio web utilizando Scrapy y selenium

Voy a raspar los contenidos html en http://ntry.com/#https://stackoverflow.com/scores/named_ladder/main.php con Scrapy . Pero, debido al uso de Javascript y # del sitio, supongo que también tengo que usar Selenium ( Python ). Me gustaría escribir mi propio código, pero soy nuevo en progtwigción, así que supongo que necesito ayuda; Primero quiero ingresar a ntry.com y pasar […]

Error de instalación de Pip: el comando python setup.py egg_info falló con el código de error 1

Acabo de instalar Python 2.7.5 en una caja de Windows 7 (32 bits) . Cuando bash instalar el módulo Scrapy a través de la consola de Windows, aparece el siguiente error: Command python setup.py egg_info failed with error code 1 in c:\users\compaq\app data\local\temp\pip_build_COMPAQ\pyOpenSSL Storing debug log for failure in C:\Users\COMPAQ\pip\pip.log He leído otros subprocesos sobre […]

Scrapy: construyendo una lista no duplicativa de rutas absolutas a partir de rutas relativas

Pregunta : ¿Cómo uso Scrapy para crear una lista no duplicativa de rutas absolutas a partir de rutas relativas bajo la etiqueta img src ? Antecedentes : estoy tratando de usar Scrapy para rastrear un sitio, extraer cualquier enlace bajo la etiqueta img src , convertir las rutas relativas en rutas absolutas y luego generar […]

Tutorial Scrapy Ejemplo

Mirando para ver si alguien me puede orientar en la dirección correcta respecto al uso de Scrapy en python. He intentado seguir el ejemplo durante varios días y aún no puedo obtener la salida esperada. Usé el tutorial de Scrapy, http://doc.scrapy.org/en/latest/intro/tutorial.html#defining-our-item , e incluso descargo un proyecto exacto del repository de github pero la salida […]

Scrapy-splash: ¿splash: go (url) en lua_script realiza la solicitud GET nuevamente?

Soy nuevo en Scrapy-splash y estoy tratando de raspar un datatable perezoso que es una tabla con paginación AJAX. Así que necesito cargar el sitio web, esperar hasta que JS se ejecute, obtener html de la tabla y luego hacer clic en el botón “Siguiente” en la paginación. Mi enfoque funciona, pero me temo que […]

Pase las URL raspadas de una araña a otra

¿Cómo puedo enviar las URL raspadas de una araña a las start_urls de otra araña? Específicamente, quiero ejecutar una araña que obtiene una lista de URL de una página XML. Después de que se hayan recuperado las URL, quiero que las utilice otra araña para raspar. from scrapy.spiders import SitemapSpider class Daily(SitemapSpider): name = ‘daily’ […]