Articles of raspador

Scrapy, privoxy y Tor: SocketError: Se rechazó la conexión

Estoy usando Scrapy con Privoxy y Tor. Aquí está mi pregunta anterior Scrapy con Privoxy y Tor: cómo renovar la propiedad intelectual , y aquí está la araña: from scrapy.contrib.spiders import CrawlSpider from scrapy.selector import Selector from scrapy.http import Request class YourCrawler(CrawlSpider): name = “****” start_urls = [ ‘https://****.com/listviews/titles.php’, ] allowed_domains = [“****.com”] def parse(self, […]

¿Cómo uso Scrapy para rastrear dentro de las páginas?

Estoy usando Python y Scrapy para esta pregunta. Estoy intentando rastrear la página web A , que contiene una lista de enlaces a las páginas B1, B2, B3, … Cada página B contiene un enlace a otra página, C1, C2, C3, … , que contiene una imagen. Entonces, usando Scrapy, la idea en el pseudocódigo […]

Diferencia entre LinkExtractor y SgmlLinkExtractor

Soy nuevo en el framework scrapy y he visto algunos tutoriales utilizando LinkExtractors y algunos utilizando SgmlLinkExtractor . He intentado buscar las diferencias / pros-contras para ambos, pero los resultados no han sido satisfactorios. ¿Alguien puede decirme la diferencia entre ambos? ¿Cuándo debemos usar los extractores anteriores? ¡Gracias!

Pasar elementos meta a través de la función de callback en scrapy

Cuando paso elementos a través de la función de callback como en este ejemplo que se encuentra en la scrapy documentation. oficial de scrapy documentation. Me preguntaba si el elemento del item pasado a parse_page2 una vez modificado dentro de la función mencionada anteriormente se podría recuperar modificado en la función parge_page1 . Me refiero […]

Raspe usando múltiples datos POST de la misma URL

Ya he creado una araña que recostack una lista de nombres de compañías con números telefónicos coincidentes. Esto se guarda en un archivo CSV. A continuación, deseo eliminar datos de otro sitio utilizando los números de teléfono del archivo CSV como datos POST. Quiero que circule a través de la misma URL de inicio, pero […]

Scrapy hxs.select () no selecciona todos los resultados

Estoy tratando de deshacerme de las probabilidades de aquí . Actualmente solo bash registrar los resultados con la siguiente araña: def parse(self, response): log.start(“LogFile.txt”, log.DEBUG); hxs = HtmlXPathSelector(response) sites = hxs.select(‘//div[@class=”fb_day_type_wrapper”]’) items = [] for site in sites: siteAddress = urlparse.urljoin(response.url, site.extract()) self.log(‘Found category url: %s’ % siteAddress) Esto solo registra la entrada: Este mercado […]

Scrapy no parece estar haciendo DFO

Tengo un sitio web para el que mi rastreador debe seguir una secuencia. Así, por ejemplo, debe ir a1, b1, c1 antes de que comience a2, cada uno de a, b y c son manejados por diferentes funciones de análisis y las urls correspondientes se crean en un objeto de Solicitud y se obtienen. Lo […]

Raspar todo el texto usando Scrapy sin conocer la estructura de las páginas web

Estoy realizando una investigación relacionada con la distribución de la indexación de Internet. Si bien existen varios proyectos de este tipo (IRLbot, Distributed-indexing, Cluster-Scrapy, Common-Crawl, etc.), el mío está más centrado en incentivar dicho comportamiento. Estoy buscando una forma sencilla de rastrear páginas web reales sin saber nada sobre su URL o estructura HTML y: […]

Corriendo docenas de arañas Scrapy de una manera controlada

Estoy tratando de construir un sistema para ejecutar unas docenas de arañas Scrapy , guardar los resultados en S3 y avisarme cuando termine. Hay varias preguntas similares en StackOverflow (por ejemplo, esta y esta otra ), pero todas parecen usar la misma recomendación ( de los documentos de Scrapy ): configurar un CrawlerProcess , agregarle […]

Problemas para ejecutar un analizador creado usando scrapy con selenium

He escrito un raspador en scrapy de Python en combinación con selenium para raspar algunos titles de un sitio web. Los css selectors definidos dentro de mi raspador son impecables. Deseo que mi raspador siga haciendo clic en la página siguiente y analice la información incrustada en cada página. Lo está haciendo bien en la […]