Articles of web raspado

¿Práctica eficiente para raspar una página con salida del lado del cliente?

Quiero un script que raspe una determinada página web cada hora y buscará una cadena determinada dentro de esa página. Sin embargo, cuando entro a esa página y uso `view: source”, no puedo ver esa cadena en la fuente. Me dijeron que es porque la cadena que estoy buscando proviene de un elemento que se […]

Sesión de mantenimiento de Scrapy

Tengo una araña de Scrapy que intenta seleccionar contenido después de enviar un formulario. Pero la página de salida que recibo de la araña es extremadamente inconsistente. Todas las páginas que estoy rastrean tienen datos cuando paso por mi navegador web. Pero Scrapy va más allá del Formulario y hasta la página de resultados, pero […]

NameError: nombre ‘Regla’ no está definido en python scrapy

Tengo el siguiente script para rastrear un sitio web de forma recursiva: #!/usr/bin/python import scrapy from scrapy.selector import Selector from twisted.internet import reactor from scrapy.crawler import CrawlerRunner class GivenSpider(scrapy.Spider): name = “dmoz” allowed_domains = [“dmoz.org”] start_urls = [ “http://www.dmoz.org/”, # “http://www.dmoz.org/Computers/Programming/Languages/Python/Books/”, # “http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/” ] rules = (Rule(LinkExtractor(allow=r’/’), callback=parse, follow=True),) def parse(self, response): select = Selector(response) […]

Ejecutando scrapy desde script (principiante)

Estoy empezando a meterme en Python y sí, he buscado en este sitio y en la web una respuesta, pero de alguna manera realmente no puedo hacer que funcione. He creado una clase de clase electrónica EbaySpider, que reside en spider / ebay.py que puedo iniciar desde la línea de comandos sin problemas (incluso con […]

Scrapy: ¿Cómo pasar la lista de argumentos a través del símbolo del sistema a la araña?

Creando un raspador para el equipo de fantasía. Buscando una forma de pasar una lista de nombres de jugadores como argumentos, y luego para cada nombre de jugador en player_list ejecute el código de análisis. Actualmente tengo algo como esto class statsspider(BaseSpider): name = ‘statsspider’ def __init__ (self, domain=None, player_list=””): self.allowed_domains = [‘sports.yahoo.com’] self.start_urls = […]

Raspando muchas páginas utilizando scrapy

Estoy tratando de raspar varias páginas web utilizando scrapy. El enlace de las páginas son como: http://www.example.com/id=some-number En la página siguiente, el número al final se reduce en 1 . Así que estoy tratando de construir una araña que navega a las otras páginas y las raspa también. El código que tengo se da a […]

Rastreo de datos web (comentarios de noticias en línea) con Scrapy (Python)

Quiero eliminar los datos de los comentarios web de las noticias en línea únicamente para investigación. Y me di cuenta de que tengo que aprender sobre Scrapy … Por lo general, hago progtwigción con Python. Pensé que sería fácil de aprender. Pero tengo algunos problemas. Quiero rastrear el comentario de las noticias en http://news.yahoo.com/congress-wary–but-unlikely-to-blow-up-obama-s-iran-deal-230545228.html . […]

Simulando hacer clic en un enlace de javascript en python

Estoy tratando de cotejar las reseñas de los restaurantes. Urllib2 funciona bien para la página inicial de revisiones, pero luego hay un enlace para cargar el siguiente incremento de comentarios, que es un enlace de javascript. Una página de ejemplo está aquí , y el código para el enlace “Siguiente 25” es: NEXT 25>> He […]

Confundido acerca de ejecutar Scrapy desde un script de Python

Siguiendo el documento , puedo ejecutar scrapy desde un script de Python, pero no puedo obtener el resultado de scrapy. Esta es mi araña from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from items import DmozItem class DmozSpider(BaseSpider): name = “douban” allowed_domains = [“example.com”] start_urls = [ “http://www.example.com/group/xxx/discussion” ] def parse(self, response): hxs = HtmlXPathSelector(response) […]

scrapy: el objeto ‘módulo’ no tiene atributo ‘OP_SINGLE_ECDH_USE’

Soy nuevo en scrapy, creo un proyecto de muestra en scrapy y ejecuto el proyecto. Tengo un error AttributeError: ‘module’ object has no attribute ‘OP_SINGLE_ECDH_USE’ Código: import scrapy class DmozSpider(scrapy.Spider): name = “dmoz” allowed_domains = [“dmoz.org”] start_urls = [“https://www.grocerygateway.com”] def parse(self, response): filename = response.url.split(“/”)[-2] with open(filename, ‘wb’) as f: f.write(response.body) Gracias por adelantado