Articles of scrapy

Formato de salida de Scrapy a XML

Así que estoy tratando de exportar los datos extraídos de un sitio web utilizando Scrapy para estar en un formato particular cuando los exporto a XML. Esto es lo que me gustaría que fuera mi XML: Estoy ejecutando mi raspadura usando el comando: $ scrapy crawl my_scrap -o items.xml -t xml La salida actual que […]

Sqlalchemy: crear dinámicamente una tabla desde un elemento de Scrapy

Estoy trabajando con sqlalchemy 1.1 y scrapy. Actualmente estoy usando un canal para almacenar los datos extraídos en una tabla de sqllite a través de sqlalchemy. Me gustaría crear dinámicamente una tabla para acomodar el elemento que se está raspando. Mi elemento de canalización estática se ve así: class SQLlitePipeline(object): def __init__(self): db_path = “sqlite:///”+settings.SETTINGS_PATH+”\\data.db” […]

Python Scrapy: filtro basado en mimetype para evitar descargas de archivos que no sean de texto

Tengo un proyecto de scrapy en ejecución, pero está siendo intensivo en ancho de banda porque intenta descargar muchos archivos binarios (zip, tar, mp3, ..etc). Creo que la mejor solución es filtrar las solicitudes según el encabezado HTTP de tipo MIME (Content-Type :). Miré el código desechable y encontré esta configuración: DOWNLOADER_HTTPCLIENTFACTORY = ‘scrapy.core.downloader.webclient.ScrapyHTTPClientFactory’ Lo […]

Ejecutando scrapy desde script sin incluir pipeline

Estoy ejecutando scrapy desde un script pero todo lo que hace es activar la araña. No pasa a través de mi tubería de artículos. He leído http://scrapy.readthedocs.org/en/latest/topics/practices.html pero no dice nada acerca de incluir tuberías. Mi configuración: Scraper/ scrapy.cfg ScrapyScript.py Scraper/ __init__.py items.py pipelines.py settings.py spiders/ __init__.py my_spider.py Mi guion: from twisted.internet import reactor from […]

Raspado de Google Analytics por Scrapy

He estado tratando de usar Scrapy para obtener algunos datos de Google Analytics y, a pesar del hecho de que soy un completo novato de Python, he progresado un poco. Ahora puedo iniciar sesión en Google Analytics de Scrapy pero necesito hacer una solicitud AJAX para obtener los datos que quiero. He intentado replicar el […]

Cómo crear el proyecto de scrapy por python3

Yo uso Mac OS, tiene python 2.7 y python 3.4. Utilizo el comando pip install para instalar scrapy en python 2.7. Compro También uso el comando pip3 install para instalar scrapy en python3.4 también … Leí los documentos oficiales en scrapy.org, sé que los scrapy solo soportan el python 2.7. Cuando uso el comando scrapy […]

Ejecutando scrapy con PyCharm – La depuración funciona pero Ejecutar no funciona

Me encontré con un problema muy extraño, ejecutando Scrapy con PyCharm: Con la misma configuración exacta, la depuración funciona, pero Ejecutar con PyCharm NO funciona. Windows 10 PyCharm 2016.3.3 Scrapy 1.3.3 Python 3.6.0 Configuración: Página de configuración de PyCharm Edit Cuando bash depurar scrapy, funciona perfectamente. Cuando bash ejecutar scrapy, obtengo el siguiente error: C:\Users\baib2\AppData\Local\Programs\Python\Python36\python.exe […]

¿Cómo conectarse al sitio https con Scrapy a través de Polipo sobre TOR?

No estoy completamente seguro de cuál es el problema aquí. Ejecutando Python 2.7.3 y Scrapy 0.16.5 He creado una araña de Scrapy muy simple para probar la conexión a mi proxy Polipo local para que pueda enviar solicitudes a través de TOR. El código básico de mi araña es el siguiente: from scrapy.spider import BaseSpider […]

Cómo evitar que Scrapy de URL solicite la encoding URL

Me gustaría que Scrapy no codificara mis solicitudes de URL. Veo que scrapy.http.Request está importando scrapy.utils.url que importa w3lib.url que contiene la variable _ALWAYS_SAFE_BYTES. Solo necesito agregar un conjunto de caracteres a _ALWAYS_SAFE_BYTES, pero no estoy seguro de cómo hacerlo desde dentro de mi clase de araña. scrapy.http.Request línea relevante: fp.update(canonicalize_url(request.url)) canonicalize_url es de scrapy.utils.url, […]

Scrapy – Seleccione un enlace específico basado en texto

Esto debería ser fácil pero estoy atascado. Link Text 2 | Link Text 3 | Link Text 4 | Link Text 5 | Link Text Next > Estoy tratando de usar Scrapy (Basespider) para seleccionar un enlace basado en su texto de enlace usando: nextPage = HtmlXPathSelector(response).select(“//div[@class=’paginationControl’]/a/@href”).re(“(.+)*?Next”) Por ejemplo, quiero seleccionar el enlace de la […]