Articles of web

¿Cómo establecer una variable global en el matraz de python?

Me gustaría establecer una variable global y usarla como un activador de varias funciones. Cada usuario tiene una variable global separada. Esto se utiliza para realizar un seguimiento de los datos de mensajes anteriores y proceder a una conversación. El problema es que ¿cómo puedo administrar una variable global separada para cada usuario? La aplicación […]

Cómo raspar múltiples páginas con una URL que no cambia – python

Estoy tratando de eliminar este sitio web: http://data.eastmoney.com/xg/xg/ Hasta ahora he usado selenium para ejecutar el javascript y obtener la tabla raspada. Sin embargo, mi código en este momento solo me da la primera página. Me preguntaba si hay una forma de acceder a las otras 17 páginas, porque cuando hago clic en la página […]

Actualización de la página web utilizando Flask basado en la base de datos MySQL.

Tengo una página web (creada con HTML y jQuery) que muestra los datos de una base de datos MySQL. Estoy usando Flask para conectar HTML con mi base de datos. Sin embargo, mi base de datos se actualiza cada 15 minutos (utilizando una secuencia de comandos de Python). Actualmente, detengo el servidor del matraz, actualizo […]

Python basehttpserver no sirve las solicitudes correctamente

Estoy tratando de escribir un proxy local simple para javascript: ya que necesito cargar algunas cosas de javascript dentro de una página web, escribí este demonio simple en python: import string,cgi,time from os import curdir, sep import urllib import urllib2 from BaseHTTPServer import BaseHTTPRequestHandler, HTTPServer class MyHandler(BaseHTTPRequestHandler): def fetchurl(self, url, post, useragent, cookies): headers={“User-Agent”:useragent, “Cookie”:cookies} […]

Pasar valores extra junto con urls a araña scrapy

Tengo una lista de tuplas en el formulario (id, url) Necesito rastrear un producto de una lista de urls, y cuando esos productos se rastrean, necesito almacenarlas en la base de datos bajo su id. el problema es que no puedo entender cómo pasar la identificación para analizar la función, por lo que puedo almacenar […]

¿Cuál es la mejor práctica para escribir scrappers web mantenibles?

Necesito implementar algunos raspadores para rastrear algunas páginas web (porque el sitio no tiene API abierta), extrayendo información y guardando en la base de datos. Actualmente estoy usando una sopa hermosa para escribir código como este: discount_price_text = soup.select(“#detail-main del.originPrice”)[0].string; discount_price = float(re.findall(‘[\d\.]+’, discount_price_text)[0]); Supongo que un código como este puede volverse fácilmente inválido cuando […]

¿Puedo ejecutar un rastreo desagradable (python) fuera del directorio del proyecto?

La documentación dice que solo podría ejecutar el comando de rastreo dentro del directorio del proyecto: scrapy crawl tutor -o items.json -t json pero realmente necesito ejecutarlo en mi código de Python (el archivo de Python no está dentro del directorio del proyecto actual) ¿Hay algún enfoque que se ajuste a mis necesidades? Mi árbol […]

¿Cómo obtener todos los datos de una página web manipulando el método de carga diferida?

He escrito algunos guiones en python usando selenium para raspar el nombre y el precio de diferentes productos del sitio web redmart. Mi raspador hace clic en un enlace, va a su página de destino, analiza los datos desde allí. Sin embargo, el problema al que me enfrento con este rastreador es que raspa muy […]

Adición de cookies que funcionan con el controlador web de Firefox pero no en PhantomJS

Tengo un pickle con cookies que creo a través del siguiente comando def doLogin(driver): #do login stuff pickle.dump(driver.get_cookies(), open(“cookies.pkl”, “wb”)) Tengo el código de muestra para obtener las cookies. driver = webdriver.PhantomJS() self.doLogin(driver) driver.delete_all_cookies() for cookie in pickle.load(open(“cookies.pkl”, “rb”)): driver.add_cookie(cookie) Puedo ver que crea la cookie bien porque si la imprimo está bien, add_cookie () […]

Problema al rastrear Amazon, el elemento no se puede desplazar a la vista

Tengo un problema al rastrear páginas en Amazon. He intentado usar: Ejecutando JS Script Cadenas de accion Esperas explícitas Nada parece funcionar. Todo arroja una excepción o error u otro. Script Base ff = create_webdriver_instance() ff.get(‘https://www.amazon.ca/gp/goldbox/ref=gbps_ftr_s-3_4bc8_dct_10-?gb_f_c2xvdC0z=sortOrder:BY_SCORE,discountRanges:10-25%252C25-50%252C50-70%252C70-&pf_rd_p=f5836aee-0969-4c39-9720-4f0cacf64bc8&pf_rd_s=slot-3&pf_rd_t=701&pf_rd_i=gb_main&pf_rd_m=A3DWYIK6Y9EEQB&pf_rd_r=CQ7KBNXT36G95190QJB1&ie=UTF8’) next_button = ff.find_element_by_xpath(‘(//li/a[contains(text(), “Next”)])[1]’) Intento # 1: Ejecutando JS Guión ff.execute_script(‘arguments[0].scrollIntoView()’, next_button) Error Element could not be scrolled into […]