Articles of raspador

Scrapy hxs.select () no selecciona todos los resultados

Estoy tratando de deshacerme de las probabilidades de aquí . Actualmente solo bash registrar los resultados con la siguiente araña: def parse(self, response): log.start(“LogFile.txt”, log.DEBUG); hxs = HtmlXPathSelector(response) sites = hxs.select(‘//div[@class=”fb_day_type_wrapper”]’) items = [] for site in sites: siteAddress = urlparse.urljoin(response.url, site.extract()) self.log(‘Found category url: %s’ % siteAddress) Esto solo registra la entrada: Este mercado […]

Scrapy no parece estar haciendo DFO

Tengo un sitio web para el que mi rastreador debe seguir una secuencia. Así, por ejemplo, debe ir a1, b1, c1 antes de que comience a2, cada uno de a, b y c son manejados por diferentes funciones de análisis y las urls correspondientes se crean en un objeto de Solicitud y se obtienen. Lo […]

Raspar todo el texto usando Scrapy sin conocer la estructura de las páginas web

Estoy realizando una investigación relacionada con la distribución de la indexación de Internet. Si bien existen varios proyectos de este tipo (IRLbot, Distributed-indexing, Cluster-Scrapy, Common-Crawl, etc.), el mío está más centrado en incentivar dicho comportamiento. Estoy buscando una forma sencilla de rastrear páginas web reales sin saber nada sobre su URL o estructura HTML y: […]

Corriendo docenas de arañas Scrapy de una manera controlada

Estoy tratando de construir un sistema para ejecutar unas docenas de arañas Scrapy , guardar los resultados en S3 y avisarme cuando termine. Hay varias preguntas similares en StackOverflow (por ejemplo, esta y esta otra ), pero todas parecen usar la misma recomendación ( de los documentos de Scrapy ): configurar un CrawlerProcess , agregarle […]

Problemas para ejecutar un analizador creado usando scrapy con selenium

He escrito un raspador en scrapy de Python en combinación con selenium para raspar algunos titles de un sitio web. Los css selectors definidos dentro de mi raspador son impecables. Deseo que mi raspador siga haciendo clic en la página siguiente y analice la información incrustada en cada página. Lo está haciendo bien en la […]

Newbie: ¿Cómo superar el botón “onclick” de Javascript para raspar la página web?

Este es el enlace que quiero eliminar: http://www.prudential.com.hk/PruServlet?module=fund&purpose=searchHistFund&fundCd=MMFU_U La pestaña “Versión en inglés” está en la esquina superior derecha para mostrar la versión en inglés de la página web. Hay un botón que debo presionar para leer la información de los fondos en la página web. De lo contrario, la vista se bloquea y el […]

Scrapy, solo sigue URLS internas pero extrae todos los enlaces encontrados

Quiero obtener todos los enlaces externos de un sitio web determinado utilizando Scrapy. Usando el siguiente código, la araña también rastrea enlaces externos: from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors import LinkExtractor from myproject.items import someItem class someSpider(CrawlSpider): name = ‘crawltest’ allowed_domains = [‘someurl.com’] start_urls = [‘http://www.someurl.com/’] rules = (Rule (LinkExtractor(), callback=”parse_obj”, follow=True), ) def […]

Archivo de elementos de importación en otro script en python

Estoy tratando de hacer lo siguiente: Una araña raspa los enlaces presentes en la página web de un sitio web. Guarda los enlaces en un archivo de texto. Otra araña ahora abre el archivo de texto, lee los enlaces, raspa las páginas web individuales y guarda los datos. Estoy tratando de llamar a estas arañas […]

Scrapy: AttributeError: el objeto ‘YourCrawler’ no tiene atributo ‘parse_following_urls’

Estoy escribiendo una araña desechada. He estado leyendo esta pregunta: Scrapy: raspado de una lista de enlaces , y puedo hacer que reconozca las URL en una página de lista, pero no puedo hacer que entre en las URL y guardar los datos que quiero ver. from scrapy.contrib.spiders import CrawlSpider from scrapy.selector import Selector from […]

Cómo raspar el código de cupón del sitio de cupón (el código de cupón se encuentra en el botón de clic)

Quiero raspar una página como: estoy usando scrapy y python para el mismo … Quiero raspar el botón que puede ver en la foto de abajo (foto de la izquierda) http://postimg.org/image/syhauheo7/ Cuando hago clic en el botón verde que dice View Code , hace tres cosas: Redirigir a otro id. Abre una ventana emergente que […]