Articles of web de

¿Problemas al intentar rastrear enlaces dentro de enlaces visitados con scrapy?

Con el fin de aprender scrapy, estoy tratando de rastrear algunas URL internas de una lista de start_urls . El problema es que no todos los elementos de start_urls tienen urls internas (aquí me gustaría devolver NaN ). Por lo tanto, ¿cómo puedo devolver el siguiente dataframe de 2 columnas (**) : visited_link, extracted_link https://www.example1.com, […]

Pase parámetros como variable para evaluar en casperjs e inicie sesión en el sitio

Estoy escribiendo un script de Python que pasa el nombre de usuario y la contraseña como params a mi script de casperjs, que se describe a continuación. Pero no sé por qué recibo el error: CasperError: casper.test property is only available using the `casperjs test` command C:/casperjs/modules/casper.js:179 ¿Puede alguien ayudarme sobre este tema? CasperJS.py: import […]

Python para guardar páginas web

Esta es probablemente una tarea muy simple, pero no puedo encontrar ninguna ayuda. Tengo un sitio web que toma el formulario www.xyz.com/somestuff/ID. Tengo una lista de las identificaciones de las que necesito información. Esperaba tener un script simple para ir al sitio y descargar la página web (completa) para cada ID en una forma simple […]

¿Extraer y analizar HTML de un sitio web seguro con Python?

Vamos a sumergirnos en esto, ¿vale? Ok, necesito escribir un guión (no me importa qué idioma, prefiero algo como Python o Javascript, pero lo que funcione me tomará tiempo para aprender). La secuencia de comandos accederá a varias URL, extraerá el texto de cada sitio y lo almacenará en una carpeta en mi PC. (Desde […]

Python inicia sesión en la página web y obtiene el contenido de la página protegida de la sesión

He estado buscando en Google para este problema durante una semana ahora. Lo que quiero lograr es lo siguiente: Envíe una solicitud POST a la URL que incluya las credenciales correctas. Guarde la sesión (no las cookies, ya que mi sitio web no utiliza cookies en este momento) Con la sesión guardada, abra una URL […]

Evitar malas solicitudes debido a las URL relativas

Estoy tratando de rastrear un sitio web usando Scrapy, y las direcciones URL de cada página que quiero eliminar están escritas usando una ruta relativa de este tipo: <!– on page https://www.domain-name.com/en/somelist.html (no in the ) –> Link Ahora, en mi navegador, estos enlaces funcionan, y puedes acceder a direcciones URL como https://www.dominio-nombre.com/en/item-to-scrap.html (a pesar […]

¿Cómo implementar / migrar una aplicación / proyecto django existente a un servidor de producción en Heroku?

Tengo una aplicación básica de django ( Newsdiffs ) que funciona bien en localhost:8000 con el python website/manage.py runserver pero me gustaría migrar a Heroku y no puedo averiguar cuál es mi próximo paso. Pensé que ejecutarlo localmente se traduciría en ejecutarlo en Heroku, pero me estoy dando cuenta de que el python website/manage.py runserver […]

Python webkit con soporte proxy

Estoy escribiendo un script en python para raspar una página web. He creado un objeto webview de webkit y utilicé el método abierto para cargar la url. Pero quiero cargar la url a través de un proxy. ¿Cómo puedo hacer esto? ¿Cómo integrar webkit con proxy? ¿Qué clase de webkit soporta proxy?

Cómo hacer una shell web interactiva en Python

¿Cómo funcionan los sitios como https://www.pythonanywhere.com/try-ipython/ ? Probablemente ejecutan varios comandos de exec , o se interconectan con ipython. Sin embargo, esto puede ser extremadamente inseguro si no realizaron ninguna “acción preventiva” (lo que hicieron). Un usuario simple (y malvado) puede hacer algo como import shutil, os y hacer algo malo. ¿Cómo es posible la […]

Uso de Python para solicitar una página web para ejecutar una búsqueda

Tengo una lista de nombres de proteínas en el formato “Uniprot”, y me gustaría convertirlos todos al formato MGI. Si va a www.uniprot.org y escribe el nombre de la proteína uniprot en la barra de “Consulta”, generará una página con un montón de información sobre esa proteína, incluido su nombre MGI (aunque mucho más abajo […]