Articles of scrapy

chatarra de chatarra en todas las páginas que tienen esta syntax

Quiero scrapy en todas las páginas que tienen este sintaxtas. mywebsite/?page=INTEGER Intenté esto: start_urls = [‘MyWebsite’] rules = [Rule(SgmlLinkExtractor(allow=[‘/\?page=\d+’]), ‘parse’)] Pero parece que el enlace sigue siendo MyWebsite . así que, por favor, ¿qué debo hacer para que entienda que quiero agregar /?page=NumberOfPage ? ¿Por favor? editar Quiero decir que quiero desechar estas páginas: mywebsite/?page=1 […]

Cómo raspar un sitio web con protección sucuri

Según Scrapy Documetions , quiero rastrear y raspar datos de varios sitios. Mis códigos funcionan correctamente con el sitio web habitual, pero cuando quiero rastrear un sitio web con Sucuri no obtengo ningún tipo de información, parece que el firewall de sucuri me impide acceder a los sitios web. las marcas El sitio web de […]

¿Cómo acceder a un start_url específico en un Scrapy CrawlSpider?

Estoy usando Scrapy, en particular la clase CrawlSpider de CrawlSpider para raspar enlaces web que contienen ciertas palabras clave. Tengo una lista bastante larga de start_urls que obtiene sus entradas de una base de datos SQLite que está conectada a un proyecto Django. Quiero guardar los enlaces web raspados en esta base de datos. Tengo […]

¿Cómo puedo usar shell shell con parámetros en url?

Quiero desechar el sitio web de trabajo. Quiero hacer algunas pruebas en shell scrapy. Por lo tanto, si escribo esto scrapy shell http://www.seek.com.au Entonces si escribo from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor entonces funciona bien Pero si hago esto scrapy shell http://www.seek.com.au/JobSearch?DateRange=31&SearchFrom=quick&Keywords=python&nation=3000 Entonces si escribo from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor Luego dice un comando de bash no válido […]

No se puede instalar lxml en Windows, error fatal C1083: No se puede abrir el archivo de inclusión: ‘libxml / xmlversion.h’

Python noob, por favor ten paciencia conmigo. Usé el instalador de Python para v3.5.1 de www.python.org. Mi intención era usar Scrapy para ejecutar algunos scripts. pip install scrapy falló, al igual que easy_install scrapy y otros. Rastreé el error a una instalación defectuosa de lxml. Aquí está el registro de errores. Incluso he intentado easy_installing […]

áspera cómo la araña devuelve valor a otra araña

El sitio web que estoy rastreando contiene muchos jugadores y cuando hago clic en cualquier jugador, puedo ir a su página. La estructura del sitio web es así: .. .. .. Y cuando hago clic en cualquier enlace, voy a la página del jugador que es así: Quiero descartar a todos los jugadores de esa […]

¿Cómo instalar Scrapy en Ubuntu 16.04?

Seguí la guía oficial , pero recibí este mensaje de error: Los siguientes paquetes tienen dependencias no satisfechas: scrapy: depende: python-support (> = 0.90.0) pero no es instalable Recomienda: python-setuptools pero no se va a instalar E: Incapaz de corregir problemas, ha mantenido paquetes rotos Luego probé sudo apt-get python-support , pero encontré ubuntu 16.04 […]

HTTP 403 respuestas cuando se usa Python Scrapy

Estoy usando Python.org versión 2.7 64 bit en Windows Vista 64 bit. He estado probando el siguiente código de Scrapy para raspar recursivamente todas las páginas en el sitio www.whoscored.com, que es para estadísticas de fútbol: from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import Selector from scrapy.item import Item from scrapy.spider […]

Consulta multi POST (modo de sesión)

Estoy tratando de interrogar este sitio para obtener la lista de ofertas. El problema es que necesitamos llenar 2 formularios (2 consultas POST) antes de recibir el resultado final. Esto lo que he hecho hasta ahora: Primero envío el primer POST después de configurar las cookies: library(httr) set_cookies(.cookies = c(a = “1”, b = “2”)) […]

¿Cómo empaquetar un script de Scrapy en una aplicación independiente?

Tengo un conjunto de arañas Scrapy. Necesitan ejecutarse diariamente desde una aplicación de escritorio. ¿Cuál es la forma más sencilla (desde el punto de vista del usuario) de instalarlo y ejecutarlo en otra máquina Windows?