Articles of web crawler

¿Cómo uso el módulo Python Scrapy para enumerar todas las URL de mi sitio web?

Quiero usar el módulo de Python Scrapy para raspar todas las URL de mi sitio web y escribir la lista en un archivo. Miré en los ejemplos pero no vi ningún ejemplo simple para hacer esto.

Siguiendo enlaces, Scrapy web crawler framework

Después de varias lecturas en documentos de Scrapy, todavía no encuentro la diferencia entre usar las reglas CrawlSpider e implementar mi propio mecanismo de extracción de enlaces en el método de callback. Estoy a punto de escribir un nuevo rastreador web utilizando este último enfoque, pero solo porque tuve una mala experiencia en un proyecto […]

Inicio de Scrapy Rastreo después de iniciar sesión

Descargo de responsabilidad: el sitio que estoy rastreando es una intranet corporativa y modifiqué un poco la URL para la privacidad corporativa. Logré iniciar sesión en el sitio pero no he podido rastrear el sitio. Comience desde start_url https: //kmssqkr.sarg/LotusQuickr/dept/Main.nsf (este sitio lo dirigirá a un sitio similar con una url más compleja: es decir […]

Usando una araña Scrapy para varios sitios web

Necesito crear una araña / rastreador web configurable por el usuario, y estoy pensando en usar Scrapy. Pero, no puedo codificar los dominios y permitir las expresiones regulares de URL: es, en su lugar, se podrá configurar en una GUI. ¿Cómo puedo (lo más simple posible) crear una araña o un conjunto de arañas con […]

Selectores nesteds en Scrapy

Tengo problemas para lograr que los selectores nesteds funcionen como se describe en la documentación de Scrapy ( http://doc.scrapy.org/en/latest/topics/selectors.html ) Esto es lo que tengo: sel = Selector(response) level3fields = sel.xpath(‘//ul/something/*’) for element in level3fields: site = element.xpath(‘/span’).extract() Cuando imprimo el “elemento” en el bucle, obtengo < Selector xpath='stuff seen above' data="u'text> Ahora tengo dos […]

Cómo escribir el código scrapy de Python para extraer las URL presentes en el mapa del sitio de un sitio

Estoy tratando de usar este código para obtener una lista de urls en el mapa del sitio. Cuando ejecuto esto, no veo resultados en la pantalla. ¿Alguien podría decirme cuál es el problema o sugerirme una mejor con un buen ejemplo? gracias por adelantado class MySpider(SitemapSpider): name = “xyz” allowed_domains = [“xyz.nl”] sitemap_urls = [“http://www.xyz.nl/sitemap.xml”] […]

Scrapy – cómo identificar urls ya raspados

Estoy usando scrapy para rastrear un sitio web de noticias a diario. ¿Cómo puedo restringir el rechazo de raspar las URL ya raspadas? También hay documentación clara o ejemplos en SgmlLinkExtractor .

Ejecutar localmente todas las arañas en Scrapy

¿Hay una manera de ejecutar todas las arañas en un proyecto Scrapy sin usar el demonio Scrapy? Solía ​​haber una forma de ejecutar múltiples arañas con scrapy crawl , pero esa syntax se eliminó y el código de Scrapy cambió bastante. Intenté crear mi propio comando: from scrapy.command import ScrapyCommand from scrapy.utils.misc import load_object from […]

Ejecutar araña múltiple secuencialmente

Class Myspider1 #do something…. Class Myspider2 #do something… Lo anterior es la architecture de mi archivo spider.py. y estoy intentando ejecutar el Myspider1 primero y luego ejecutar los múltiplos Myspider2 veces dependen de algunas condiciones. ¿Cómo podría hacer eso? ¿algun consejo? configure_logging() runner = CrawlerRunner() def crawl(): yield runner.crawl(Myspider1,arg…..) yield runner.crawl(Myspider2,arg…..) crawl() reactor.run() Estoy tratando […]

¿Por qué Scrapy devuelve un Iframe?

Quiero rastrear este sitio por Python-Scrapy Intento esto class Parik(scrapy.Spider): name = “ooshop” allowed_domains = [“http://www.ooshop.com/courses-en-ligne/Home.aspx”] def __init__(self, idcrawl=None, proxy=None, *args, **kwargs): super(Parik, self).__init__(*args, **kwargs) self.start_urls = [‘http://www.ooshop.com/courses-en-ligne/Home.aspx’] def parse(self, response): print response.css(‘body’).extract_first() pero no tengo la primera página, tengo un iframe vacío 2016-09-06 19:09:24 [scrapy] DEBUG: Crawled (200) (referer: None) 2016-09-06 19:09:24 [scrapy] INFO: […]