Articles of scrapy

Emisión de empaquetado de spy spider con cx_Freeze o py2exe

He creado un raspador con Scrapy y wxPython que funciona como se esperaba, exportando un archivo con resultados al escritorio en formato CSV. Estoy intentando empaquetar esto en un ejecutable con cx_Freeze usando la siguiente línea de indicador de comando: cxfreeze ItemStatusChecker.py –target-dir dist Esto parece funcionar bien, generando el directorio dist con ItemStatusChecker.exe Sin […]

Scrapy rastrear todos los enlaces de sitemap

Quiero rastrear todos los enlaces presentes en el sitemap.xml de un sitio fijo. Me he encontrado con el SitemapSpider de Scrapy . Hasta ahora he extraído todas las direcciones URL en el mapa del sitio. Ahora quiero rastrear a través de cada enlace del mapa del sitio. Cualquier ayuda sería muy útil. El código hasta […]

Scrapy: cómo rellenar elementos jerárquicos con solicitudes multipel

Esta es una extensión de múltiples solicitudes anidadas con scrapy . Preguntando porque la solución presentada tiene fallas: 1. Esto elimina la asincronía, lo que reduce considerablemente la eficiencia del raspado. 2. En caso de que se produzca una excepción, al procesar los enlaces “stack” y ningún elemento se venderá 3. ¿Qué pasa si hay […]

La URL de JSON a veces devuelve una respuesta nula

Estoy raspando un sitio web que carga datos de productos de archivos JSON individuales. Encontré las URL a los JSON inspeccionando el tráfico de la red. El problema es el siguiente: cuando sigo las URL de JSON, la mayoría de los enlaces proporcionarán un resultado de JSON. Pero las URL de JSON de los productos […]

La implementación de Scrapy no coincide con el resultado de depuración

Estoy usando Scrapy para extraer algunos datos de un sitio, diga “myproject.com”. Aquí está la lógica: Vaya a la página de inicio, y hay algunas categorylist que se usarán para construir la segunda ola de enlaces. Para la segunda ronda de enlaces, generalmente son la primera página de cada categoría. Además, para diferentes páginas dentro […]

¿Cómo hacer que XPath seleccione varios elementos de la tabla con atributos de ID idénticos?

Actualmente estoy tratando de extraer información de una página web mal formateada. Específicamente, la página ha usado el mismo atributo de identificación para varios elementos de la tabla. El marcado es equivalente a algo como esto: Some content. Important text 1. Some heading in between Important text 2. Important text 3. How about some more […]

cual es el significado de request.headers.setdefault () en scrapy

Quiero configurar UserAgentMiddleware personalizado con scrapy. Pero no conozco la acción de request.headers.setdefault(‘User-Agent’, ua) cuando la vi, y no encontré el método de rechazar y las solicitudes. ¿Dónde puedo encontrar alguna explicación al respecto?

ImportError: no se puede importar desenvolver nombre

He instalado scrapy con pip install scrapy . Pero en el shell de python obtengo un ImportError: >>> from scrapy.spider import Spider Traceback (most recent call last): File “”, line 1, in File “/usr/local/lib/python2.7/dist-packages/scrapy/__init__.py”, line 56, in from scrapy.spider import Spider File “/usr/local/lib/python2.7/dist-packages/scrapy/spider.py”, line 7, in from scrapy.http import Request File “/usr/local/lib/python2.7/dist-packages/scrapy/http/__init__.py”, line 10, in […]

Recupera solo una parte de un feed XML

Estoy usando Scrapy XMLFeedSpider para analizar un gran feed XML (60 MB) de un sitio web, y me preguntaba si hay una manera de recuperar solo una parte de ella en lugar de los 60 MB porque en este momento la memoria RAM consumida es bastante alta. Tal vez algo para poner en el enlace […]

Error al crear el proyecto Scrapy a través de startproject

Estoy aprendiendo el marco Scrapy. Acabo de empezar, así que esto puede parecer una duda de novatos. Sin embargo, aquí va. Utilizo el comando startproject para crear un proyecto. Sin embargo, el proyecto no puede ser creado. Me da el siguiente error. Traceback (most recent call last): File “/usr/local/bin/scrapy”, line 11, in sys.exit(execute()) File “/usr/local/lib/python2.7/dist-packages/scrapy/cmdline.py”, […]