Articles of web raspado

Capturando códigos de estado http con araña scrapy

Soy nuevo en scrapy. Estoy escribiendo una araña diseñada para verificar una larga lista de direcciones URL para los códigos de estado del servidor y, cuando corresponda, a qué URL se redirigen. Es importante destacar que, si hay una cadena de redirecciones, necesito conocer el código de estado y la URL en cada salto. Estoy […]

Autenticación NTLM con Scrapy para raspado web

Estoy intentando eliminar datos de un sitio web que requiere autenticación. He podido iniciar sesión correctamente utilizando solicitudes y HttpNtlmAuth con lo siguiente: s = requests.session() url = “https://website.com/things” response = s.get(url, auth=HttpNtlmAuth(‘DOMAIN\\USERNAME’,’PASSWORD’)) Me gustaría explorar las capacidades de Scrapy, sin embargo, no he podido autenticarme correctamente. Encontré el siguiente middleware que parece que podría […]

Inicie sesión en el sitio web utilizando solicitudes de python

Estoy intentando iniciar sesión en https://www.voxbeam.com/login utilizando solicitudes para raspar datos. Soy un principiante de python y he hecho sobre todo tutoriales, y algunos raspado web por mi cuenta con BeautifulSoup. Mirando el HTML: Entiendo que debería estar usando el método de envío y el envío de nombre de usuario y contraseña Estoy intentando esto: […]

El raspado de HTML usando lxml y las solicitudes da un error de Unicode

Estoy tratando de usar un raspador de HTML como el que se proporciona aquí . Funciona bien para el ejemplo que proporcionan. Sin embargo, cuando trato de usarlo con mi página web , recibo este error: Unicode strings with encoding declaration are not supported. Please use bytes input or XML fragments without declaration. Unicode strings […]

Scrapy con Privoxy y Tor: cómo renovar IP

Estoy tratando con Scrapy, Privoxy y Tor. Tengo todo instalado y funcionando correctamente. Pero Tor se conecta con la misma IP cada vez, por lo que puedo ser baneado fácilmente. ¿Es posible decirle a Tor que vuelva a conectar cada X segundos o conexiones? ¡Gracias! EDITAR sobre la configuración: Para el grupo de agentes de […]

Pase el usuario-agente a través de webdriver en Selenium

Estoy trabajando en un proyecto de raspado de sitios web utilizando Selenium en Python. Cuando abro la página de inicio a través de un navegador, se abre correctamente. Pero, cuando bash abrir la página web a través de webdriver() en Selenium, se abre una página completamente diferente. Creo que es capaz de detectar el user-agent […]

Pantalla de raspado de una página web basada en Javascript en Python

Estoy trabajando en una herramienta de raspado de pantalla en Python. Pero, al mirar a través de la fuente de la página web, noté que la mayoría de los datos provienen de Javascript. ¿Alguna idea, cómo raspar la página web basada en javascript? ¿Alguna herramienta en Python? Gracias

Python: realice una solicitud POST utilizando Python 3 urllib

Estoy intentando hacer una solicitud POST a la siguiente página: http://search.cpsa.ca/PhysicianSearch Para simular, haga clic en el botón ‘Buscar’ sin rellenar ninguno de los formularios, lo que agrega datos a la página. Obtuve la información del encabezado POST haciendo clic en el botón mientras miraba la pestaña de red en las herramientas de desarrollador de […]

Scrapy: Pasa los argumentos a cmdline.execute ()

Sé cómo pasar argumentos cuando se ejecuta una araña scrapy desde la línea de comandos. Sin embargo, tengo problemas al intentar ejecutarlo de forma programática desde una secuencia de comandos utilizando scrapy cmdline.execute (). Los argumentos que necesito pasar son listas a las que antes formé como cadenas, así: numbers = “one,two,three,four,five” colors = “red,blue,black,yellow,pink” […]

Cómo raspar páginas web controladas por Javascript con PyQt4: ¿cómo acceder a las páginas que necesitan autenticación?

Tengo que raspar una página muy, muy simple en la intranet de nuestra compañía para automatizar uno de nuestros procesos internos (devolver la salida de una función como exitosa o no). Encontré el siguiente ejemplo: import sys from PyQt4.QtGui import * from PyQt4.QtCore import * from PyQt4.QtWebKit import * class Render(QWebPage): def __init__(self, url): self.app […]