Articles of web

¿Cómo obtener todos los datos de una página web manipulando el método de carga diferida?

He escrito algunos guiones en python usando selenium para raspar el nombre y el precio de diferentes productos del sitio web redmart. Mi raspador hace clic en un enlace, va a su página de destino, analiza los datos desde allí. Sin embargo, el problema al que me enfrento con este rastreador es que raspa muy […]

Adición de cookies que funcionan con el controlador web de Firefox pero no en PhantomJS

Tengo un pickle con cookies que creo a través del siguiente comando def doLogin(driver): #do login stuff pickle.dump(driver.get_cookies(), open(“cookies.pkl”, “wb”)) Tengo el código de muestra para obtener las cookies. driver = webdriver.PhantomJS() self.doLogin(driver) driver.delete_all_cookies() for cookie in pickle.load(open(“cookies.pkl”, “rb”)): driver.add_cookie(cookie) Puedo ver que crea la cookie bien porque si la imprimo está bien, add_cookie () […]

Problema al rastrear Amazon, el elemento no se puede desplazar a la vista

Tengo un problema al rastrear páginas en Amazon. He intentado usar: Ejecutando JS Script Cadenas de accion Esperas explícitas Nada parece funcionar. Todo arroja una excepción o error u otro. Script Base ff = create_webdriver_instance() ff.get(‘https://www.amazon.ca/gp/goldbox/ref=gbps_ftr_s-3_4bc8_dct_10-?gb_f_c2xvdC0z=sortOrder:BY_SCORE,discountRanges:10-25%252C25-50%252C50-70%252C70-&pf_rd_p=f5836aee-0969-4c39-9720-4f0cacf64bc8&pf_rd_s=slot-3&pf_rd_t=701&pf_rd_i=gb_main&pf_rd_m=A3DWYIK6Y9EEQB&pf_rd_r=CQ7KBNXT36G95190QJB1&ie=UTF8’) next_button = ff.find_element_by_xpath(‘(//li/a[contains(text(), “Next”)])[1]’) Intento # 1: Ejecutando JS Guión ff.execute_script(‘arguments[0].scrollIntoView()’, next_button) Error Element could not be scrolled into […]

¿Se necesita ALLOWED_HOSTS en Heroku?

Por lo que entiendo, ALLOWED_HOSTS realiza una comprobación cuando DEBUG=False para evitar que un atacante apunte su propio dominio a su sitio. Parece que los dominios personalizados de Heroku hacen lo mismo. Entonces, en lugar de agregar una variable ALLOWED_HOSTS requerida en tu app.json para el botón Heroku (ya que se siente redundante y es […]

Django Framework – ¿Existe un evento de apagado al que se pueda suscribir?

Tengo un problema que espero que pueda resolverse con algún tipo de gancho de apagado en Django. Todavía soy un principiante con el desarrollo de Python / Django, y para ayudar a aprender, me he propuesto un proyecto de desarrollo de un sitio de chat de estilo COMET / Reverse Ajax que se ejecuta en […]

¿Implementación gratuita de conteo de sesiones de usuario desde un registro de servidor web?

Los analizadores de registro del servidor web (por ejemplo, Urchin) a menudo muestran una serie de “sesiones”. Una sesión se define como una serie de visitas / clics de página realizados por un individuo dentro de un segmento de tiempo continuo y limitado. Se intenta identificar estos segmentos mediante direcciones IP y, a menudo, información […]

Cómo generar sitemap gráfico de sitio web grande

Me gustaría generar un sitemap gráfico para mi sitio web. Hay dos etapas, por lo que puedo decir: Rastrea el sitio web y analiza la relación de enlace para extraer la estructura de árbol Generar un render del árbol visualmente agradable. ¿Alguien tiene algún consejo o experiencia para lograr esto, o conoce el trabajo existente […]

Frasco manejando un PDF como su propia página.

Para mi sitio web personal, quiero tener una página aparte solo para mi currículum, que es un PDF. He intentado de varias maneras, pero no puedo averiguar cómo hacer que el matraz maneje un PDF.

PYTHON SCRAPY No se puede enviar información a FORMULARIOS,

Creo que voy a pedir un gran favor ya que estoy luchando con este problema durante varios días. Intenté todas las formas posibles (en mi mejor conocimiento) y aún no he obtenido ningún resultado. Estoy haciendo algo mal, pero todavía no puedo entender qué es. Así que gracias a todos los que estén dispuestos a […]

Problemas para ejecutar un analizador creado usando scrapy con selenium

He escrito un raspador en scrapy de Python en combinación con selenium para raspar algunos titles de un sitio web. Los css selectors definidos dentro de mi raspador son impecables. Deseo que mi raspador siga haciendo clic en la página siguiente y analice la información incrustada en cada página. Lo está haciendo bien en la […]