Articles of web raspado

Scrapy, privoxy y Tor: SocketError: Se rechazó la conexión

Estoy usando Scrapy con Privoxy y Tor. Aquí está mi pregunta anterior Scrapy con Privoxy y Tor: cómo renovar la propiedad intelectual , y aquí está la araña: from scrapy.contrib.spiders import CrawlSpider from scrapy.selector import Selector from scrapy.http import Request class YourCrawler(CrawlSpider): name = “****” start_urls = [ ‘https://****.com/listviews/titles.php’, ] allowed_domains = [“****.com”] def parse(self, […]

¿Cómo uso Scrapy para rastrear dentro de las páginas?

Estoy usando Python y Scrapy para esta pregunta. Estoy intentando rastrear la página web A , que contiene una lista de enlaces a las páginas B1, B2, B3, … Cada página B contiene un enlace a otra página, C1, C2, C3, … , que contiene una imagen. Entonces, usando Scrapy, la idea en el pseudocódigo […]

Diferencia entre LinkExtractor y SgmlLinkExtractor

Soy nuevo en el framework scrapy y he visto algunos tutoriales utilizando LinkExtractors y algunos utilizando SgmlLinkExtractor . He intentado buscar las diferencias / pros-contras para ambos, pero los resultados no han sido satisfactorios. ¿Alguien puede decirme la diferencia entre ambos? ¿Cuándo debemos usar los extractores anteriores? ¡Gracias!

Raspe el título descargando solo la parte relevante de la página web

Me gustaría raspar el título de una página web usando Python. Necesito hacer esto para miles de sitios, así que tiene que ser rápido. He visto preguntas anteriores como recuperar solo el título de una página web en python , pero todas las que he encontrado descargan la página completa antes de recuperar el título, […]

Pasar elementos meta a través de la función de callback en scrapy

Cuando paso elementos a través de la función de callback como en este ejemplo que se encuentra en la scrapy documentation. oficial de scrapy documentation. Me preguntaba si el elemento del item pasado a parse_page2 una vez modificado dentro de la función mencionada anteriormente se podría recuperar modificado en la función parge_page1 . Me refiero […]

¿Cómo seleccionar algunas direcciones URL con BeautifulSoup?

Quiero borrar la siguiente información, excepto la última fila y la fila “class =” Region “: … 7 White and Case New York N/A 1,863 565 1,133 $160,000 View Profile … He probado con este controlador: class TestUrlOpen(webapp.RequestHandler): def get(self): soup = BeautifulSoup(urllib.urlopen(“http://www.ilrg.com/nlj250/”)) link_list = [] for a in soup.findAll(‘a’,href=True): link_list.append(a[“href”]) self.response.out.write(“””link_list: %s””” % link_list) […]

Scrapy hxs.select () no selecciona todos los resultados

Estoy tratando de deshacerme de las probabilidades de aquí . Actualmente solo bash registrar los resultados con la siguiente araña: def parse(self, response): log.start(“LogFile.txt”, log.DEBUG); hxs = HtmlXPathSelector(response) sites = hxs.select(‘//div[@class=”fb_day_type_wrapper”]’) items = [] for site in sites: siteAddress = urlparse.urljoin(response.url, site.extract()) self.log(‘Found category url: %s’ % siteAddress) Esto solo registra la entrada: Este mercado […]

Scrapy no parece estar haciendo DFO

Tengo un sitio web para el que mi rastreador debe seguir una secuencia. Así, por ejemplo, debe ir a1, b1, c1 antes de que comience a2, cada uno de a, b y c son manejados por diferentes funciones de análisis y las urls correspondientes se crean en un objeto de Solicitud y se obtienen. Lo […]

¿Cómo ve los encabezados de solicitud que mecaniza está utilizando?

Estoy intentando enviar algunos datos a un formulario programáticamente. Tengo un pequeño problema por el cual al servidor no le gusta lo que le estoy enviando. Frustrantemente, no hay mensajes de error, o cualquier cosa que pueda ayudar a diagnosticar el problema, todo lo que hace es volver a la misma página en la que […]

Raspar todo el texto usando Scrapy sin conocer la estructura de las páginas web

Estoy realizando una investigación relacionada con la distribución de la indexación de Internet. Si bien existen varios proyectos de este tipo (IRLbot, Distributed-indexing, Cluster-Scrapy, Common-Crawl, etc.), el mío está más centrado en incentivar dicho comportamiento. Estoy buscando una forma sencilla de rastrear páginas web reales sin saber nada sobre su URL o estructura HTML y: […]