Articles of scrapy

¿Cómo seleccionar y extraer textos entre dos elementos?

Estoy tratando de raspar este sitio web utilizando scrapy. La estructura de la página se ve así: Follows Star Trek <a href="https://stackoverflow.com/questions/45957062/how-to-select-and-extract-texts-between-two-elements/… Star Trek: The Motion Picture Star Trek II: The Wrath of Khan Star Trek III: The Search for Spock Star Trek IV: The Voyage Home Followed by Star Trek V: The Final Frontier […]

Django redirecciona a la página de resultados después de un acabado desaliñado

Tengo un proyecto Django con una aplicación scrapy. Después de que el usuario rellena algunos campos de formulario, paso los datos rellenos a la araña y rastro algunas páginas. Todo funciona a la perfección, la base de datos está siendo poblada. Salvo por una cosa. Cuando el usuario presiona el botón Enviar, la página de […]

Cómo pasar el parámetro a un objeto pipeline scrapy

Después de raspar algunos datos con una araña scrapy: class Test_Spider(Spider): name = “test” def start_requests(self): for i in range(900,902,1): …….. yield item Pasé los datos a un objeto de canalización para que se escriba en una tabla de sqllite usando sqlalchemy: class SQLlitePipeline(object): def __init__(self): _engine = create_engine(“sqlite:///data.db”) _connection = _engine.connect() _metadata = MetaData() […]

Scrapy: acceda a los datos mientras rastrea y cambia aleatoriamente el agente de usuario

¿Es posible acceder a los datos mientras se está rastreando scrapy? Tengo un script que encuentra una palabra clave específica y escribe la palabra clave en .csv, así como el enlace donde se encontró. Sin embargo, tengo que esperar a que se realice el rastreo de scrapy, y cuando se hace esto, en realidad se […]

Scrapy Spider no raspa correctamente

Estoy usando Python.org 2.7 64 shell de Windows en Windows Vista. Tengo Scrapy instalado y parece estar estable y funcionando. Sin embargo, he copiado la siguiente pieza de código simple: from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector class MySpider(BaseSpider): name = “craig” allowed_domains = [“craigslist.org”] start_urls = [“http://sfbay.craigslist.org/sfc/npo/”] def parse(self, response): hxs = HtmlXPathSelector(response) […]

error del selector de importación de scrapy.selector

No puedo hacer lo siguiente: from scrapy.selector import Selector El error es: Archivo “/Desktop/KSL/KSL/spiders/spider.py”, línea 1, desde scrapy.selector import Selector ImportError: no se puede importar el nombre Selector Es como si LXML no estuviera instalado en mi máquina, pero sí lo está. Además, pensé que este era un módulo predeterminado integrado en scrapy. ¿Tal vez […]

Scrapy: no se puede crear un proyecto

Tuve problemas al instalar scrapy respecto a lxml pero luego encontré algo de información sobre stackoverflow. Basándome en esa información, hice un sudo easy_install lxml con un error. Creo que el scrapy se instaló: La razón por la que llegué a ese juicio es que rechazo lo que podría hacer a continuación: Python 2.7.5 (default, […]

Scrapy startproject no funciona con git-bash

Estoy trabajando en win7 en un sistema con git-bash. He instalado Miniconda y cargué scrapy usando: conda install -c scrapinghub scrapy He establecido las variables ambientales para contener: C:\Miniconda2;C:\Miniconda2\Scripts Ahora dentro del scrapy vitualenv, cuando lo hago: (scrapy) $ scrapy startproject scrapytest sh: scrapy: command not found ¿Cómo uso la herramienta de línea de comandos […]

¿Raspando la página de Ajax con Scrapy?

Estoy usando Scrapy para raspar datos de esta página https://www.bricoetloisirs.ch/magasins/gardena La lista de productos aparece dinámicamente. Encuentra url para obtener productos https://www.bricoetloisirs.ch/coop/ajax/nextPage/(cpgnum=1&layout=7.01-14_180_69_164_182&uiarea=2&carea=%24ROOT&fwrd=frwd0&cpgsize=12)/.do?page=2&_=14742 Pero cuando lo raspo por Scrapy me da la página vacía. Page: 0 / Size: 12 Aqui esta mi codigo # -*- coding: utf-8 -*- import scrapy from v4.items import Product class GardenaCoopBricoLoisirsSpider(scrapy.Spider): […]

No se puede importar el módulo de configuración de Scrapy o su scrapy.cfg

Este es un post bastante largo, pero después de una extensa investigación no pude encontrar una solución. Tengo un proyecto mixto Django 1.4.1 / Scrapy 0.14.4 en OSX 10.8 y controlo Scrapy con el comando manage.py del proyecto Django como se describe aquí . Por ejemplo, llamando python manage.py scrapy crawl example_spider Funciona sin problemas. […]