He escrito algunos guiones en python usando selenium para raspar el nombre y el precio de diferentes productos del sitio web redmart. Mi raspador hace clic en un enlace, va a su página de destino, analiza los datos desde allí. Sin embargo, el problema al que me enfrento con este rastreador es que raspa muy […]
Tengo un pickle con cookies que creo a través del siguiente comando def doLogin(driver): #do login stuff pickle.dump(driver.get_cookies(), open(“cookies.pkl”, “wb”)) Tengo el código de muestra para obtener las cookies. driver = webdriver.PhantomJS() self.doLogin(driver) driver.delete_all_cookies() for cookie in pickle.load(open(“cookies.pkl”, “rb”)): driver.add_cookie(cookie) Puedo ver que crea la cookie bien porque si la imprimo está bien, add_cookie () […]
Tengo un problema al rastrear páginas en Amazon. He intentado usar: Ejecutando JS Script Cadenas de accion Esperas explícitas Nada parece funcionar. Todo arroja una excepción o error u otro. Script Base ff = create_webdriver_instance() ff.get(‘https://www.amazon.ca/gp/goldbox/ref=gbps_ftr_s-3_4bc8_dct_10-?gb_f_c2xvdC0z=sortOrder:BY_SCORE,discountRanges:10-25%252C25-50%252C50-70%252C70-&pf_rd_p=f5836aee-0969-4c39-9720-4f0cacf64bc8&pf_rd_s=slot-3&pf_rd_t=701&pf_rd_i=gb_main&pf_rd_m=A3DWYIK6Y9EEQB&pf_rd_r=CQ7KBNXT36G95190QJB1&ie=UTF8’) next_button = ff.find_element_by_xpath(‘(//li/a[contains(text(), “Next”)])[1]’) Intento # 1: Ejecutando JS Guión ff.execute_script(‘arguments[0].scrollIntoView()’, next_button) Error Element could not be scrolled into […]
Por lo que entiendo, ALLOWED_HOSTS realiza una comprobación cuando DEBUG=False para evitar que un atacante apunte su propio dominio a su sitio. Parece que los dominios personalizados de Heroku hacen lo mismo. Entonces, en lugar de agregar una variable ALLOWED_HOSTS requerida en tu app.json para el botón Heroku (ya que se siente redundante y es […]
Tengo un problema que espero que pueda resolverse con algún tipo de gancho de apagado en Django. Todavía soy un principiante con el desarrollo de Python / Django, y para ayudar a aprender, me he propuesto un proyecto de desarrollo de un sitio de chat de estilo COMET / Reverse Ajax que se ejecuta en […]
Los analizadores de registro del servidor web (por ejemplo, Urchin) a menudo muestran una serie de “sesiones”. Una sesión se define como una serie de visitas / clics de página realizados por un individuo dentro de un segmento de tiempo continuo y limitado. Se intenta identificar estos segmentos mediante direcciones IP y, a menudo, información […]
Me gustaría generar un sitemap gráfico para mi sitio web. Hay dos etapas, por lo que puedo decir: Rastrea el sitio web y analiza la relación de enlace para extraer la estructura de árbol Generar un render del árbol visualmente agradable. ¿Alguien tiene algún consejo o experiencia para lograr esto, o conoce el trabajo existente […]
Para mi sitio web personal, quiero tener una página aparte solo para mi currículum, que es un PDF. He intentado de varias maneras, pero no puedo averiguar cómo hacer que el matraz maneje un PDF.
Creo que voy a pedir un gran favor ya que estoy luchando con este problema durante varios días. Intenté todas las formas posibles (en mi mejor conocimiento) y aún no he obtenido ningún resultado. Estoy haciendo algo mal, pero todavía no puedo entender qué es. Así que gracias a todos los que estén dispuestos a […]
He escrito un raspador en scrapy de Python en combinación con selenium para raspar algunos titles de un sitio web. Los css selectors definidos dentro de mi raspador son impecables. Deseo que mi raspador siga haciendo clic en la página siguiente y analice la información incrustada en cada página. Lo está haciendo bien en la […]