Articles of web crawler

No se puede acceder a request.response.meta desde el script de Scrapy

No puedo acceder a request.response.meta[‘redirect_urls’] desde mi script de Scrapy, pero no tengo problemas para acceder a esta información para la misma página web en el shell de Scrapy. Cuando imprimo las claves de request.response.meta solo veo download_timeout, depth, download_latency, download_slot Me pregunto si esto tiene que ver con una de las configuraciones que he […]

¿Cómo leer el contenido de un sitio web?

Soy nuevo en web-crawler usando Python 2.7. 1. Antecedentes Ahora, quiero recostackr datos útiles de AQICN.org, que es un excelente sitio web que ofrece datos de calidad del air en todo el mundo. Quiero usar Python para obtener todos los datos de los sitios de China por hora. Pero estoy atascado en este momento. 2. […]

Formato de salida de Scrapy a XML

Así que estoy tratando de exportar los datos extraídos de un sitio web utilizando Scrapy para estar en un formato particular cuando los exporto a XML. Esto es lo que me gustaría que fuera mi XML: Estoy ejecutando mi raspadura usando el comando: $ scrapy crawl my_scrap -o items.xml -t xml La salida actual que […]

Cómo evitar que Scrapy de URL solicite la encoding URL

Me gustaría que Scrapy no codificara mis solicitudes de URL. Veo que scrapy.http.Request está importando scrapy.utils.url que importa w3lib.url que contiene la variable _ALWAYS_SAFE_BYTES. Solo necesito agregar un conjunto de caracteres a _ALWAYS_SAFE_BYTES, pero no estoy seguro de cómo hacerlo desde dentro de mi clase de araña. scrapy.http.Request línea relevante: fp.update(canonicalize_url(request.url)) canonicalize_url es de scrapy.utils.url, […]

Scrapy – Seleccione un enlace específico basado en texto

Esto debería ser fácil pero estoy atascado. Link Text 2 | Link Text 3 | Link Text 4 | Link Text 5 | Link Text Next > Estoy tratando de usar Scrapy (Basespider) para seleccionar un enlace basado en su texto de enlace usando: nextPage = HtmlXPathSelector(response).select(“//div[@class=’paginationControl’]/a/@href”).re(“(.+)*?Next”) Por ejemplo, quiero seleccionar el enlace de la […]

Solicitud Scrapy no pasa a callback cuando 301?

Estoy tratando de actualizar una base de datos llena de enlaces a sitios web externos, por alguna razón, se omite la callback cuando los encabezados / sitio web / w / e de solicitud se mueven / marca 301 def start_requests(self): #… database stuff for x in xrange(0, numrows): row = cur.fetchone() item = exampleItem() […]

Solicitud de retraso Scrapy

Cada vez que ejecuto mi código mi ip es baneada. Necesito ayuda para retrasar cada solicitud durante 10 segundos. He intentado colocar DOWNLOAD_DELAY en el código pero no da resultados. Cualquier ayuda es apreciada. # item class included here class DmozItem(scrapy.Item): # define the fields for your item here like: link = scrapy.Field() attr = […]

Scrapy SgmlLinkExtractor está ignorando los enlaces permitidos

Por favor, eche un vistazo a este ejemplo de araña en la documentación de Scrapy. La explicación es: Esta araña comenzaría a rastrear la página de inicio de example.com, recostackndo enlaces de categoría y enlaces de elementos, analizando esta última con el método parse_item. Para cada respuesta del elemento, algunos datos se extraerán del HTML […]

El envío del formulario de Mechanze provoca un ‘Error de aserción’ en respuesta cuando se intenta .read ()

Estoy escribiendo un progtwig de rastreo web con python y no puedo iniciar sesión usando mecanizar. El formulario en el sitio se ve como: Last Name: University ID or Library Barcode: Institution: Select University —- American Catholic District of Columbia Gallaudet George Mason George Washington Georgetown Marymount Trinity        Por lo tanto, puedo configurar todo […]

Scrapy – no se arrastra

Estoy intentando que se ejecute un rastreo recursivo y, como el que escribí no funcionaba bien, saqué un ejemplo de la web y lo intenté. Realmente no sé dónde está el problema, pero el rastreo no muestra ningún ERROR. Puede alguien ayudarme con esto. Además, ¿existe alguna herramienta de depuración paso a paso para ayudar […]