Articles of web crawler

Web Scraper para formas dinámicas en python

Estoy tratando de llenar el formulario de este sitio web http://www.marutisuzuki.com/Maruti-Price.aspx . Se compone de tres listas desplegables. Uno es el modelo del automóvil, el segundo es el estado y el tercero es la ciudad. Los dos primeros son estáticos y el tercero, la ciudad se genera dinámicamente según el valor del estado, se ejecuta […]

Llamar a scrapy desde un script de Python que no crea el archivo de salida JSON

Aquí está el script de python que estoy usando para llamar scrapy, la respuesta de El rastreo de Scrapy desde el script siempre bloquea la ejecución del script después del raspado def stop_reactor(): reactor.stop() dispatcher.connect(stop_reactor, signal=signals.spider_closed) spider = MySpider(start_url=’abc’) crawler = Crawler(Settings()) crawler.configure() crawler.crawl(spider) crawler.start() log.start() log.msg(‘Running reactor…’) reactor.run() # the script will block here […]

¿Cómo forzar a scrapy a rastrear la URL duplicada?

Estoy aprendiendo Scrapy un marco de rastreo web. de forma predeterminada, no rastrea las direcciones URL duplicadas o las que scrapy ya ha rastreado. ¿Cómo hacer que Scrapy rastree las URL duplicadas o que ya se han rastreado? Intenté averiguarlo en internet pero no pude encontrar ayuda relevante. Encontré DUPEFILTER_CLASS = RFPDupeFilter y SgmlLinkExtractor de […]

Scrapy establece el límite de profundidad por permitidos_dominios

Estoy rastreando 6 dominios distintos permitidos y me gustaría limitar la profundidad de 1 dominio. ¿Cómo podría limitar la profundidad de ese dominio 1 en scrapy? ¿O sería posible rastrear solo 1 profundidad de un dominio externo?

Cómo construir un rastreador de Python para sitios web utilizando oauth2

Soy nuevo en progtwigción web. Quiero crear un rastreador para rastrear el gráfico social en Foursquare por Python. Tengo un rastreador controlado “manualmente” utilizando la biblioteca apiv2 . El método principal es como: def main(): CODE = “******” url = “https://foursquare.com/oauth2/authenticate?client_id=****&response_type=code&redirect_uri=****” key = “***” secret = “****” re_uri = “***” auth = apiv2.FSAuthenticator(key, secret, re_uri) […]

Enviar los datos a través del formulario web y extraer los resultados

Mi nivel de python es novato. Nunca he escrito un raspador web o rastreador. He escrito un código de Python para conectarme a una api y extraer los datos que deseo. Pero para algunos los datos extraídos quiero obtener el género del autor. Encontré este sitio web http://bookblog.net/gender/genie.php pero el inconveniente es que no hay […]

Diferencia de la araña de Scrapy entre las páginas rastreadas y los elementos raspados

Estoy escribiendo un Scrapy CrawlSpider que lee una lista de anuncios publicitarios en la primera página, toma información como los pulgares de los listados y las direcciones URL de anuncios, luego envía una solicitud a cada una de estas direcciones URL de anuncios para que tomen sus detalles. Estaba funcionando y paginando aparentemente bien en […]

¿Debo crear pipeline para guardar archivos con scrapy?

Necesito guardar un archivo (.pdf) pero no estoy seguro de cómo hacerlo. Necesito guardar .pdfs y almacenarlos de tal manera que estén organizados en directorios tal como están almacenados en el sitio al que los estoy eliminando. De lo que puedo reunir, necesito hacer una tubería, pero por lo que entiendo, las tuberías guardan “Elementos” […]

Scrapy no rastrea las páginas posteriores en orden.

Estoy escribiendo un rastreador para obtener los nombres de los elementos de un sitio web. El sitio web tiene 25 elementos por página y varias páginas (200 para algunos tipos de elementos). Aquí está el código: from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.selector import HtmlXPathSelector from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from lonelyplanet.items import LonelyplanetItem class LonelyplanetSpider(CrawlSpider): […]

¿Cómo puedo crear reglas para un crawlspider usando scrapy

from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from manga.items import MangaItem class MangaHere(BaseSpider): name = “mangah” allowed_domains = [“mangahere.com”] start_urls = [“http://www.mangahere.com/seinen/”] def parse(self,response): hxs = HtmlXPathSelector(response) sites = hxs.select(‘//ul/li/div’) items = [] for site in sites: rating = site.select(“p/span/text()”).extract() if rating > 4.5: item = MangaItem() item[“title”] = site.select(“div/a/text()”).extract() item[“desc”] = site.select(“p[2]/text()”).extract() item[“link”] […]