Articles of web

No se puede pasar por un formulario con scrapy

Soy nuevo en el uso de scrapy y estoy tratando de obtener información de un sitio web de bienes raíces. El sitio tiene una página de inicio con un formulario de búsqueda (método GET). Estoy intentando ir a la página de resultados en mis solicitudes de inicio (recherche.php) y configurar todos los parámetros de obtención […]

sitio de rastreo que tiene desplazamiento infinito usando python

He estado investigando y hasta ahora he descubierto el paquete de python que planearé usar su scrapy , ahora estoy tratando de descubrir cuál es una buena manera de construir un raspador usando scrapy para rastrear el sitio con un desplazamiento infinito. Después de investigar, descubrí que hay un paquete llamado selenium y que tiene […]

¿Por qué no puedo cerrar sesión en django user auth?

Estoy utilizando el sistema de gestión de usuarios django.contrib.auth. Así que obtuve el registro / inserción en la tabla de usuario / modelo y el inicio de sesión de django.contrib.auth.views.login para poder iniciar sesión. Sin embargo, no puedo usar django.contrib.auth.views.logout para cerrar sesión Tengo en mi plantilla My Account Welcome, {{ name|capfirst }}! {% if […]

Foro de código abierto con API

¿Alguien tiene sugerencias para un foro web basado en PHP, Python o J2EE que tenga una buena API para crear usuarios y temas de foro mediante progtwigción?

Mensaje de error “No se pudo decodificar la respuesta de la marioneta” en el script de raspado sin cabeza de Python / Firefox

Buen día, he hecho varias búsquedas aquí y en Google y, sin embargo, he encontrado una solución que resuelva este problema. El escenario es: Tengo un script de Python (2.7) que recorre una cantidad de URL (p. Ej., Piense en páginas de Amazon, en revisiones de raspado). Cada página tiene el mismo diseño HTML, simplemente […]

Ejecutando el navegador de selenium en el servidor (Flask / Python / Heroku)

Estoy raspando algunos sitios web que parecen tener una protección bastante buena contra ellos. La única forma en que puedo hacer que funcione es usar Selenium para cargar la página y luego raspar todo eso. Actualmente esto funciona en mi computadora local (las ventanas de Firefox se abren y cierran cuando accedo a mi página […]

Determinar automáticamente el lenguaje natural de una página web dada su URL

Estoy buscando una manera de determinar automáticamente el lenguaje natural utilizado por una página web, dada su URL. En Python, una función como: def LanguageUsed (url): #stuff Lo que devuelve un especificador de idioma (por ejemplo, ‘en’ para inglés, ‘jp’ para japonés, etc …) Resumen de los resultados: Tengo una solución razonable que funciona en […]

¿Necesita raspar la información de una página web con el botón “mostrar más”, alguna recomendación?

Actualmente desarrollando un “rastreador” por razones educativas, Todo funciona bien, puedo extraer información y url’s y guardarla en un archivo json, todo está bien y excelente … EXCEPTO La página tiene un botón “Cargar más” con el que NECESITO interactuar para que el rastreador continúe buscando más URL. ¡Aquí es donde podría usarlos increíbles chicos […]

¿Puede Scrapy ser reemplazado por pyspider?

He estado utilizando Scrapy web-scraping framework bastante extensamente, pero recientemente descubrí que existe otro framework / sistema llamado pyspider , que, según su página de github, es nuevo, está desarrollado activamente y es popular. La página de inicio de pyspider enumera varias cosas que se soportan de manera pyspider : Potente WebUI con editor de […]

Cómo controlar el orden de rendimiento en Scrapy

¡Ayuda! Leyendo el siguiente código desechable y el resultado del rastreador. Quiero rastrear algunos datos de http://china.fathom.info/data/data.json , y solo Scrapy está permitido. Pero no sé cómo controlar el orden de rendimiento. Espero poder procesar todas las solicitudes de parse_member en el bucle y luego devolver el group_item , pero parece que el elemento de […]