Articles of raspador

Capturando códigos de estado http con araña scrapy

Soy nuevo en scrapy. Estoy escribiendo una araña diseñada para verificar una larga lista de direcciones URL para los códigos de estado del servidor y, cuando corresponda, a qué URL se redirigen. Es importante destacar que, si hay una cadena de redirecciones, necesito conocer el código de estado y la URL en cada salto. Estoy […]

Autenticación NTLM con Scrapy para raspado web

Estoy intentando eliminar datos de un sitio web que requiere autenticación. He podido iniciar sesión correctamente utilizando solicitudes y HttpNtlmAuth con lo siguiente: s = requests.session() url = “https://website.com/things” response = s.get(url, auth=HttpNtlmAuth(‘DOMAIN\\USERNAME’,’PASSWORD’)) Me gustaría explorar las capacidades de Scrapy, sin embargo, no he podido autenticarme correctamente. Encontré el siguiente middleware que parece que podría […]

Scrapy con Privoxy y Tor: cómo renovar IP

Estoy tratando con Scrapy, Privoxy y Tor. Tengo todo instalado y funcionando correctamente. Pero Tor se conecta con la misma IP cada vez, por lo que puedo ser baneado fácilmente. ¿Es posible decirle a Tor que vuelva a conectar cada X segundos o conexiones? ¡Gracias! EDITAR sobre la configuración: Para el grupo de agentes de […]

Scrapy: Pasa los argumentos a cmdline.execute ()

Sé cómo pasar argumentos cuando se ejecuta una araña scrapy desde la línea de comandos. Sin embargo, tengo problemas al intentar ejecutarlo de forma programática desde una secuencia de comandos utilizando scrapy cmdline.execute (). Los argumentos que necesito pasar son listas a las que antes formé como cadenas, así: numbers = “one,two,three,four,five” colors = “red,blue,black,yellow,pink” […]

Haga clic en un botón en Scrapy

Estoy usando Scrapy para rastrear una página web. Parte de la información que necesito solo aparece cuando haces clic en un botón determinado (por supuesto, también aparece en el código HTML después de hacer clic). Descubrí que Scrapy puede manejar formularios (como inicios de sesión) como se muestra aquí . Pero el problema es que […]

Descarga una página completa con scrapy.

Quiero descargar el contenido de una página entera usando scrapy. Con el selenium esto es bastante fácil: import os,sys reload(sys) sys.setdefaultencoding(‘utf8’) from selenium import webdriver url = ‘https://es.wikipedia.org/wiki/Python’ driver = webdriver.Firefox() driver.get(url) content = driver.page_source with open(‘source’,’w’) as output: output.write(content) Pero el selenium es mucho más lento que el áspero. ¿Es una forma sencilla de […]

Scrapy Ejemplo muy básico

Hola, tengo Python Scrapy instalado en mi mac y estaba tratando de seguir el primer ejemplo en su web. Estaban tratando de ejecutar el comando: scrapy crawl mininova.org -o scraped_data.json -t json No entiendo muy bien que significa esto? Parece que scrapy resulta ser un progtwig separado. Y no creo que tengan un comando llamado […]

Raspando el contenido dynamic usando python-Scrapy

Descargo de responsabilidad: he visto muchas otras publicaciones similares en StackOverflow y he intentado hacerlo de la misma manera, pero parece que no funcionan en este sitio web. Estoy usando Python-Scrapy para obtener datos de koovs.com. Sin embargo, no puedo obtener el tamaño del producto, que se genera dinámicamente. Específicamente, si alguien pudiera guiarme un […]

Selenio con scrapy para página dinámica.

Estoy tratando de raspar la información del producto de una página web, usando scrapy. Mi página web para ser raspada se ve así: comienza con una página de lista de productos con 10 productos un clic en el botón “siguiente” carga los siguientes 10 productos (la url no cambia entre las dos páginas) Utilizo LinkExtractor […]