Articles of web raspado

Raspando muchas páginas utilizando scrapy

Estoy tratando de raspar varias páginas web utilizando scrapy. El enlace de las páginas son como: http://www.example.com/id=some-number En la página siguiente, el número al final se reduce en 1 . Así que estoy tratando de construir una araña que navega a las otras páginas y las raspa también. El código que tengo se da a […]

Rastreo de datos web (comentarios de noticias en línea) con Scrapy (Python)

Quiero eliminar los datos de los comentarios web de las noticias en línea únicamente para investigación. Y me di cuenta de que tengo que aprender sobre Scrapy … Por lo general, hago progtwigción con Python. Pensé que sería fácil de aprender. Pero tengo algunos problemas. Quiero rastrear el comentario de las noticias en http://news.yahoo.com/congress-wary–but-unlikely-to-blow-up-obama-s-iran-deal-230545228.html . […]

Simulando hacer clic en un enlace de javascript en python

Estoy tratando de cotejar las reseñas de los restaurantes. Urllib2 funciona bien para la página inicial de revisiones, pero luego hay un enlace para cargar el siguiente incremento de comentarios, que es un enlace de javascript. Una página de ejemplo está aquí , y el código para el enlace “Siguiente 25” es: NEXT 25>> He […]

Confundido acerca de ejecutar Scrapy desde un script de Python

Siguiendo el documento , puedo ejecutar scrapy desde un script de Python, pero no puedo obtener el resultado de scrapy. Esta es mi araña from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from items import DmozItem class DmozSpider(BaseSpider): name = “douban” allowed_domains = [“example.com”] start_urls = [ “http://www.example.com/group/xxx/discussion” ] def parse(self, response): hxs = HtmlXPathSelector(response) […]

scrapy: el objeto ‘módulo’ no tiene atributo ‘OP_SINGLE_ECDH_USE’

Soy nuevo en scrapy, creo un proyecto de muestra en scrapy y ejecuto el proyecto. Tengo un error AttributeError: ‘module’ object has no attribute ‘OP_SINGLE_ECDH_USE’ Código: import scrapy class DmozSpider(scrapy.Spider): name = “dmoz” allowed_domains = [“dmoz.org”] start_urls = [“https://www.grocerygateway.com”] def parse(self, response): filename = response.url.split(“/”)[-2] with open(filename, ‘wb’) as f: f.write(response.body) Gracias por adelantado

Scrapy. ¿Cómo cambiar la configuración de la araña después de comenzar a rastrear?

No puedo cambiar la configuración de la araña en el método de análisis. Pero definitivamente debe ser una manera. Por ejemplo: clase SomeSpider (BaseSpider): name = ‘mySpider’ allowed_domains = [‘example.com’] start_urls = [‘http://example.com’] settings.overrides [‘ITEM_PIPELINES’] = [‘myproject.pipelines.FirstPipeline’] configuración de impresión [‘ITEM_PIPELINES’] [0] #printed ‘myproject.pipelines.FirstPipeline’ def parse (auto, respuesta): # … algún código settings.overrides [‘ITEM_PIPELINES’] = […]

Scrapy da URLError:

Así que tengo un progtwig de chatarra que estoy tratando de despegar pero no puedo obtener mi código para ejecutarlo, siempre aparece el error a continuación. Todavía puedo visitar el sitio utilizando el comando scrapy shell así que conozco el URL y todo el trabajo. Aqui esta mi codigo from scrapy.spiders import CrawlSpider, Rule from […]

Scrapy CrawlSpider para contenido AJAX

Estoy intentando rastrear un sitio para artículos de noticias. Mi start_url contiene: (1) enlaces a cada artículo: http://example.com/symbol/TSLA y (2) un botón “Más” que realiza una llamada AJAX que carga dinámicamente más artículos dentro del mismo start_url: http://example.com/account/ajax_headlines_content?type=in_focus_articles&page=0&slugs=tsla&is_symbol_page=true Un parámetro para la llamada AJAX es “página”, que se incrementa cada vez que se hace clic […]

¿Cómo reprogtwigr 403 códigos de estado HTTP para que luego se rastreen en scrapy?

Según estas instrucciones, puedo ver que los errores de HTTP 500, los errores de conexión perdida, etc., siempre se reprogtwign, pero no pude encontrar en ningún lugar si también se reprogtwigron 403 errores o si simplemente se tratan como una respuesta válida o se ignoran después de alcanzar los límites de rebashs. . También de […]

Preservar los saltos de línea al analizar con Scrapy en Python

He escrito una araña de Scrapy que extrae texto de una página. La araña analiza y produce correctamente en muchas de las páginas, pero es arrojada por unos pocos. Estoy tratando de mantener los saltos de línea y el formato en el documento. Las páginas como http://www.state.gov/r/pa/prs/dpb/2011/04/160298.htm están formateadas correctamente como tales: 7 de abril […]