Articles of raspador

Archivo de elementos de importación en otro script en python

Estoy tratando de hacer lo siguiente: Una araña raspa los enlaces presentes en la página web de un sitio web. Guarda los enlaces en un archivo de texto. Otra araña ahora abre el archivo de texto, lee los enlaces, raspa las páginas web individuales y guarda los datos. Estoy tratando de llamar a estas arañas […]

Scrapy: AttributeError: el objeto ‘YourCrawler’ no tiene atributo ‘parse_following_urls’

Estoy escribiendo una araña desechada. He estado leyendo esta pregunta: Scrapy: raspado de una lista de enlaces , y puedo hacer que reconozca las URL en una página de lista, pero no puedo hacer que entre en las URL y guardar los datos que quiero ver. from scrapy.contrib.spiders import CrawlSpider from scrapy.selector import Selector from […]

Cómo raspar el código de cupón del sitio de cupón (el código de cupón se encuentra en el botón de clic)

Quiero raspar una página como: estoy usando scrapy y python para el mismo … Quiero raspar el botón que puede ver en la foto de abajo (foto de la izquierda) http://postimg.org/image/syhauheo7/ Cuando hago clic en el botón verde que dice View Code , hace tres cosas: Redirigir a otro id. Abre una ventana emergente que […]

Sesión de mantenimiento de Scrapy

Tengo una araña de Scrapy que intenta seleccionar contenido después de enviar un formulario. Pero la página de salida que recibo de la araña es extremadamente inconsistente. Todas las páginas que estoy rastrean tienen datos cuando paso por mi navegador web. Pero Scrapy va más allá del Formulario y hasta la página de resultados, pero […]

NameError: nombre ‘Regla’ no está definido en python scrapy

Tengo el siguiente script para rastrear un sitio web de forma recursiva: #!/usr/bin/python import scrapy from scrapy.selector import Selector from twisted.internet import reactor from scrapy.crawler import CrawlerRunner class GivenSpider(scrapy.Spider): name = “dmoz” allowed_domains = [“dmoz.org”] start_urls = [ “http://www.dmoz.org/”, # “http://www.dmoz.org/Computers/Programming/Languages/Python/Books/”, # “http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/” ] rules = (Rule(LinkExtractor(allow=r’/’), callback=parse, follow=True),) def parse(self, response): select = Selector(response) […]

Ejecutando scrapy desde script (principiante)

Estoy empezando a meterme en Python y sí, he buscado en este sitio y en la web una respuesta, pero de alguna manera realmente no puedo hacer que funcione. He creado una clase de clase electrónica EbaySpider, que reside en spider / ebay.py que puedo iniciar desde la línea de comandos sin problemas (incluso con […]

Scrapy: ¿Cómo pasar la lista de argumentos a través del símbolo del sistema a la araña?

Creando un raspador para el equipo de fantasía. Buscando una forma de pasar una lista de nombres de jugadores como argumentos, y luego para cada nombre de jugador en player_list ejecute el código de análisis. Actualmente tengo algo como esto class statsspider(BaseSpider): name = ‘statsspider’ def __init__ (self, domain=None, player_list=””): self.allowed_domains = [‘sports.yahoo.com’] self.start_urls = […]

Raspando muchas páginas utilizando scrapy

Estoy tratando de raspar varias páginas web utilizando scrapy. El enlace de las páginas son como: http://www.example.com/id=some-number En la página siguiente, el número al final se reduce en 1 . Así que estoy tratando de construir una araña que navega a las otras páginas y las raspa también. El código que tengo se da a […]

Rastreo de datos web (comentarios de noticias en línea) con Scrapy (Python)

Quiero eliminar los datos de los comentarios web de las noticias en línea únicamente para investigación. Y me di cuenta de que tengo que aprender sobre Scrapy … Por lo general, hago progtwigción con Python. Pensé que sería fácil de aprender. Pero tengo algunos problemas. Quiero rastrear el comentario de las noticias en http://news.yahoo.com/congress-wary–but-unlikely-to-blow-up-obama-s-iran-deal-230545228.html . […]

Confundido acerca de ejecutar Scrapy desde un script de Python

Siguiendo el documento , puedo ejecutar scrapy desde un script de Python, pero no puedo obtener el resultado de scrapy. Esta es mi araña from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from items import DmozItem class DmozSpider(BaseSpider): name = “douban” allowed_domains = [“example.com”] start_urls = [ “http://www.example.com/group/xxx/discussion” ] def parse(self, response): hxs = HtmlXPathSelector(response) […]