Quiero rastrear este sitio por Python-Scrapy
Intento esto
class Parik(scrapy.Spider): name = "ooshop" allowed_domains = ["http://www.ooshop.com/courses-en-ligne/Home.aspx"] def __init__(self, idcrawl=None, proxy=None, *args, **kwargs): super(Parik, self).__init__(*args, **kwargs) self.start_urls = ['http://www.ooshop.com/courses-en-ligne/Home.aspx'] def parse(self, response): print response.css('body').extract_first()
pero no tengo la primera página, tengo un iframe vacío
2016-09-06 19:09:24 [scrapy] DEBUG: Crawled (200) (referer: None) 2016-09-06 19:09:24 [scrapy] INFO: Closing spider (finished)
El sitio web está protegido por Incapsula, un servicio de seguridad de sitios web. Le proporciona a su “navegador” un desafío que debe realizar antes de recibir una cookie especial que le da acceso al sitio web en sí.
Afortunadamente, no es tan difícil pasar por alto. Instale incapsula-cracker e instale su middleware de descarga:
DOWNLOADER_MIDDLEWARES = { 'incapsula.IncapsulaMiddleware': 900 }