Articles of rastreador de

Cómo especificar parámetros en una solicitud utilizando scrapy

¿Cómo paso los parámetros a una solicitud en una url como esta? site.com/search/?action=search&description=My Search here&e_author= ¿Cómo pongo los argumentos en la estructura de una solicitud de araña, algo como este ejemplo: req = Request(url=”site.com/”,parameters={x=1,y=2,z=3})

No se puede ejecutar el progtwig Scrapy

He estado aprendiendo a trabajar con Scrapy desde el siguiente enlace: http://doc.scrapy.org/en/master/intro/tutorial.html Cuando bash ejecutar el código escrito en la sección de Rastreo ( scrapy crawl dmoz ), obtengo el siguiente error: AttributeError: ‘module’ object has no attribute ‘Spider ‘ Sin embargo, cambié “Spider” a “spider” y solo obtuve un nuevo error: TypeError: Error when […]

sitio de rastreo que tiene desplazamiento infinito usando python

He estado investigando y hasta ahora he descubierto el paquete de python que planearé usar su scrapy , ahora estoy tratando de descubrir cuál es una buena manera de construir un raspador usando scrapy para rastrear el sitio con un desplazamiento infinito. Después de investigar, descubrí que hay un paquete llamado selenium y que tiene […]

Cómo controlar el orden de rendimiento en Scrapy

¡Ayuda! Leyendo el siguiente código desechable y el resultado del rastreador. Quiero rastrear algunos datos de http://china.fathom.info/data/data.json , y solo Scrapy está permitido. Pero no sé cómo controlar el orden de rendimiento. Espero poder procesar todas las solicitudes de parse_member en el bucle y luego devolver el group_item , pero parece que el elemento de […]

Scrapy Linkextractor duplicando (?)

Tengo el rastreador implementado como a continuación. Está funcionando e iría a través de sitios regulados bajo el link extractor . Básicamente, lo que estoy tratando de hacer es extraer información de diferentes lugares en la página: – href y text () bajo la clase ‘news’ (si existe) – url de la imagen bajo la […]

Error de elementos de módulo de importación de Scrapy

La estructura de mi proyecto: kmss/ ├── kmss │ ├── __init__.py │ ├── items.py │ ├── pipelines.py │ ├── settings.py │ └── spiders │ ├── __init__.py │ └── first.py ├── README.rst ├── scrapy.cfg └── setup.py Lo estoy ejecutando en mac y mi carpeta de proyecto se crea en la ubicación: /user/username/kmss Y dentro de items.py […]