Articles of raspador

Scrapy: ¿Cómo pasar la lista de argumentos a través del símbolo del sistema a la araña?

Creando un raspador para el equipo de fantasía. Buscando una forma de pasar una lista de nombres de jugadores como argumentos, y luego para cada nombre de jugador en player_list ejecute el código de análisis. Actualmente tengo algo como esto class statsspider(BaseSpider): name = ‘statsspider’ def __init__ (self, domain=None, player_list=””): self.allowed_domains = [‘sports.yahoo.com’] self.start_urls = […]

Raspando muchas páginas utilizando scrapy

Estoy tratando de raspar varias páginas web utilizando scrapy. El enlace de las páginas son como: http://www.example.com/id=some-number En la página siguiente, el número al final se reduce en 1 . Así que estoy tratando de construir una araña que navega a las otras páginas y las raspa también. El código que tengo se da a […]

Rastreo de datos web (comentarios de noticias en línea) con Scrapy (Python)

Quiero eliminar los datos de los comentarios web de las noticias en línea únicamente para investigación. Y me di cuenta de que tengo que aprender sobre Scrapy … Por lo general, hago progtwigción con Python. Pensé que sería fácil de aprender. Pero tengo algunos problemas. Quiero rastrear el comentario de las noticias en http://news.yahoo.com/congress-wary–but-unlikely-to-blow-up-obama-s-iran-deal-230545228.html . […]

Confundido acerca de ejecutar Scrapy desde un script de Python

Siguiendo el documento , puedo ejecutar scrapy desde un script de Python, pero no puedo obtener el resultado de scrapy. Esta es mi araña from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from items import DmozItem class DmozSpider(BaseSpider): name = “douban” allowed_domains = [“example.com”] start_urls = [ “http://www.example.com/group/xxx/discussion” ] def parse(self, response): hxs = HtmlXPathSelector(response) […]

scrapy: el objeto ‘módulo’ no tiene atributo ‘OP_SINGLE_ECDH_USE’

Soy nuevo en scrapy, creo un proyecto de muestra en scrapy y ejecuto el proyecto. Tengo un error AttributeError: ‘module’ object has no attribute ‘OP_SINGLE_ECDH_USE’ Código: import scrapy class DmozSpider(scrapy.Spider): name = “dmoz” allowed_domains = [“dmoz.org”] start_urls = [“https://www.grocerygateway.com”] def parse(self, response): filename = response.url.split(“/”)[-2] with open(filename, ‘wb’) as f: f.write(response.body) Gracias por adelantado

Scrapy. ¿Cómo cambiar la configuración de la araña después de comenzar a rastrear?

No puedo cambiar la configuración de la araña en el método de análisis. Pero definitivamente debe ser una manera. Por ejemplo: clase SomeSpider (BaseSpider): name = ‘mySpider’ allowed_domains = [‘example.com’] start_urls = [‘http://example.com’] settings.overrides [‘ITEM_PIPELINES’] = [‘myproject.pipelines.FirstPipeline’] configuración de impresión [‘ITEM_PIPELINES’] [0] #printed ‘myproject.pipelines.FirstPipeline’ def parse (auto, respuesta): # … algún código settings.overrides [‘ITEM_PIPELINES’] = […]

Scrapy da URLError:

Así que tengo un progtwig de chatarra que estoy tratando de despegar pero no puedo obtener mi código para ejecutarlo, siempre aparece el error a continuación. Todavía puedo visitar el sitio utilizando el comando scrapy shell así que conozco el URL y todo el trabajo. Aqui esta mi codigo from scrapy.spiders import CrawlSpider, Rule from […]

Ejecutando el navegador de selenium en el servidor (Flask / Python / Heroku)

Estoy raspando algunos sitios web que parecen tener una protección bastante buena contra ellos. La única forma en que puedo hacer que funcione es usar Selenium para cargar la página y luego raspar todo eso. Actualmente esto funciona en mi computadora local (las ventanas de Firefox se abren y cierran cuando accedo a mi página […]

Scrapy con Selenio arrastrándose pero sin raspar

He leído todos los subprocesos sobre el uso de scrapy para páginas AJAX e instalé Selenium WebDrive para simplificar la tarea, mi araña puede rastrear parcialmente pero no puedo obtener datos en mis Artículos. Mis objectives son: Rastrear desde esta página a esta página Raspe cada artículo (post) ‘s: author_name (xpath:/html/body/div[8]/div/div[1]/div[3]/div[3]/ul/li[2]/div[2]/span[2]/ul/li[3]/a/text()) author_page_url (xpath:/html/body/div[8]/div/div[1]/div[3]/div[3]/ul/li[2]/div[2]/span[2]/ul/li[3]/a/@href) post_title (xpath://a[@class=”title_txt”]) […]

Beautifulsoup y mecanizar para obtener el resultado de la llamada ajax.

Hola, estoy construyendo un raspador usando Python 2.5 y beautifulsoup, pero tengo problemas con un problema … parte de la página web se genera después de que el usuario haga clic en algún botón, que inicia una solicitud de ajax al llamar a la función javacsript específica con los parámetros adecuados ¿Hay una manera de […]