Quiero scrapy en todas las páginas que tienen este sintaxtas. mywebsite/?page=INTEGER Intenté esto: start_urls = [‘MyWebsite’] rules = [Rule(SgmlLinkExtractor(allow=[‘/\?page=\d+’]), ‘parse’)] Pero parece que el enlace sigue siendo MyWebsite . así que, por favor, ¿qué debo hacer para que entienda que quiero agregar /?page=NumberOfPage ? ¿Por favor? editar Quiero decir que quiero desechar estas páginas: mywebsite/?page=1 […]
Según Scrapy Documetions , quiero rastrear y raspar datos de varios sitios. Mis códigos funcionan correctamente con el sitio web habitual, pero cuando quiero rastrear un sitio web con Sucuri no obtengo ningún tipo de información, parece que el firewall de sucuri me impide acceder a los sitios web. las marcas El sitio web de […]
Estoy usando Scrapy, en particular la clase CrawlSpider de CrawlSpider para raspar enlaces web que contienen ciertas palabras clave. Tengo una lista bastante larga de start_urls que obtiene sus entradas de una base de datos SQLite que está conectada a un proyecto Django. Quiero guardar los enlaces web raspados en esta base de datos. Tengo […]
Quiero desechar el sitio web de trabajo. Quiero hacer algunas pruebas en shell scrapy. Por lo tanto, si escribo esto scrapy shell http://www.seek.com.au Entonces si escribo from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor entonces funciona bien Pero si hago esto scrapy shell http://www.seek.com.au/JobSearch?DateRange=31&SearchFrom=quick&Keywords=python&nation=3000 Entonces si escribo from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor Luego dice un comando de bash no válido […]
Python noob, por favor ten paciencia conmigo. Usé el instalador de Python para v3.5.1 de www.python.org. Mi intención era usar Scrapy para ejecutar algunos scripts. pip install scrapy falló, al igual que easy_install scrapy y otros. Rastreé el error a una instalación defectuosa de lxml. Aquí está el registro de errores. Incluso he intentado easy_installing […]
El sitio web que estoy rastreando contiene muchos jugadores y cuando hago clic en cualquier jugador, puedo ir a su página. La estructura del sitio web es así: .. .. .. Y cuando hago clic en cualquier enlace, voy a la página del jugador que es así: Quiero descartar a todos los jugadores de esa […]
Seguí la guía oficial , pero recibí este mensaje de error: Los siguientes paquetes tienen dependencias no satisfechas: scrapy: depende: python-support (> = 0.90.0) pero no es instalable Recomienda: python-setuptools pero no se va a instalar E: Incapaz de corregir problemas, ha mantenido paquetes rotos Luego probé sudo apt-get python-support , pero encontré ubuntu 16.04 […]
Estoy usando Python.org versión 2.7 64 bit en Windows Vista 64 bit. He estado probando el siguiente código de Scrapy para raspar recursivamente todas las páginas en el sitio www.whoscored.com, que es para estadísticas de fútbol: from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import Selector from scrapy.item import Item from scrapy.spider […]
Estoy tratando de interrogar este sitio para obtener la lista de ofertas. El problema es que necesitamos llenar 2 formularios (2 consultas POST) antes de recibir el resultado final. Esto lo que he hecho hasta ahora: Primero envío el primer POST después de configurar las cookies: library(httr) set_cookies(.cookies = c(a = “1”, b = “2”)) […]
Tengo un conjunto de arañas Scrapy. Necesitan ejecutarse diariamente desde una aplicación de escritorio. ¿Cuál es la forma más sencilla (desde el punto de vista del usuario) de instalarlo y ejecutarlo en otra máquina Windows?