Articles of web

¿Cómo puedo activar cada elemento y analizar su información?

Me encontré con un tipo diferente de problema al raspar una página web usando python. Cuando se hace clic en una imagen, la información nueva sobre su sabor aparece debajo de la imagen. Mi objective es analizar todos los sabores conectados a cada imagen. Mi script puede analizar los sabores de la imagen activa actualmente, […]

Publicar en el servidor Tornado

Estoy intentando publicar en mi Tornado Web Server pero sigo recibiendo un error 405. No estoy seguro de lo que está mal. Soy bastante nuevo en Python, pero he estado buscando esto durante aproximadamente un mes y finalmente decidí darle una oportunidad. Tornado Web Server: import tornado.httpserver import tornado.ioloop import tornado.options import tornado.web from tornado.options […]

App Engine (Python) omite el middleware webapp (como Appstats) en producción pero funciona bien en el servidor dev

Estoy usando App Engine python para alojar una aplicación y me encantaría usar Appstats y un par de otras bibliotecas que se ejecutan como middleware. Sin embargo, cuando configuro el middleware a través de appengine_config.py (como se muestra a continuación), funciona en el servidor dev pero no en producción. Appstats AND gaesessions funcionan como un […]

¿Reglas dinámicas basadas en start_urls para Scrapy CrawlSpider?

Estoy escribiendo un Scrapy Scray que utiliza CrawlSpider para rastrear sitios, revisar sus enlaces internos y raspar el contenido de cualquier enlace externo (enlaces con un dominio diferente del dominio original). Logré hacer eso con 2 reglas pero están basadas en el dominio del sitio que se está rastreando. Si quiero ejecutar esto en varios […]

Obtengo ‘ImportError: Ningún módulo llamado web’ a pesar del hecho de que está instalado

Me gustaría ejecutar una aplicación simple ‘Hello world’. Cada vez que lo ejecuto me sale ‘ImportError: No module named web’ Instalé web.py usando pip y usando easy_install varias veces. Intenté desinstalarlo e instalarlo de nuevo. Intenté instalarlo como sudo. Nada parece funcionar. Yo uso OS X Código de la solicitud: import web urls = ( […]

Python para guardar páginas web

Esta es probablemente una tarea muy simple, pero no puedo encontrar ninguna ayuda. Tengo un sitio web que toma el formulario www.xyz.com/somestuff/ID. Tengo una lista de las identificaciones de las que necesito información. Esperaba tener un script simple para ir al sitio y descargar la página web (completa) para cada ID en una forma simple […]

descargar el archivo del servicio web en python 3

Veo algunos métodos para descargar un archivo desde HTTP / HTTPS en Python, pero para todos estos necesitas saber la URL exacta. Estoy tratando de descargar desde un servicio web y la URL tiene métodos y post argumentos que se envían para descargar el archivo, no puedo averiguar qué es la URL para enviar. Este […]

Reformateo de la mesa de selenium raspado.

Estoy raspando una mesa que muestra información para una liga deportiva. Hasta ahora todo bien para un principiante de selenium: from selenium import webdriver import re import pandas as pd driver = webdriver.PhantomJS(executable_path=r’C:/…/bin/phantomjs.exe’) driver.get(“http://www.oddsportal.com/hockey/usa/nhl-2014-2015/results/#/page/2.html”) infotable = driver.find_elements_by_class_name(“table-main”) matches = driver.find_elements_by_class_name(“table-participant”) ilist, match = [], [] for i in infotable: ilist.append(i.text) infolist = ilist[0] for i […]

Scrapy: Recuperando el conjunto de contenidos a través de Javascript

Estoy tratando de rastrear esta URL. Cambia el costo de 130 a 154.99 a través de Javascript. Cuando ves la fuente de vista de Price DOM, se ve así: £130.00 Y definitivamente se está configurando a través de JavaScript. ¿Cómo puedo obtener el valor correcto a través de scrapy? La forma en que traté de […]

Web de raspado de Python con cookie de sesión

Hola, estoy intentando eliminar algunos datos de esta URL: http://www.21cineplex.com/nowplaying/jakarta,3,JKT.htm/1 Como habrá notado, si las cookies y los datos de la sesión aún no están configurados, será redirigido a su URL base ( http://www.21cineplex.com/ ) Intenté hacerlo así: def main(): try: cj = CookieJar() baseurl = “http://www.21cineplex.com” opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) opener.open(baseurl) urllib2.install_opener(opener) movieSource = urllib2.urlopen(‘http://www.21cineplex.com/nowplaying/jakarta,3,JKT.htm/1’).read() […]