Articles of python pedidos

Python dryscrape raspar página con cookies

Quiero obtener algunos datos del sitio, lo que requiere iniciar sesión. Me conecto por peticiones url = “http://example.com” response = requests.get(url, {“email”:”a@gmail.com”, “password”:”12345″}) cookies = response.cookies Entonces quiero obtener datos de alguna página JS. A través de solicitudes no es posible, así que tengo que usar dryscrape para esto. import dryscrape url = “http://example.com/js-page” sess […]

Multipart POST utilizando peticiones de python

Estoy haciendo un POST multiparte usando las solicitudes del paquete python. Estoy usando xlrd para cambiar algunos valores en un archivo de Excel, guárdelo y envíelo en un POST multiparte. Esto funciona bien cuando lo ejecuto localmente en mi mac pero cuando coloco el código en una máquina remota y hago la misma solicitud, el […]

¿Qué comando usar en lugar de urllib.request.urlretrieve?

Actualmente estoy escribiendo un script que descarga un archivo desde una URL import urllib.request urllib.request.urlretrieve(my_url, ‘my_filename’) De acuerdo con los documentos, urllib.request.urlretrieve es una interfaz heredada y puede quedar obsoleta, por lo que me gustaría evitarla para no tener que volver a escribir este código en un futuro próximo. No puedo encontrar otra interfaz como […]

¿Cómo descargar archivos PDF de enlaces raspados ?

Estoy trabajando en hacer un PDF Web Scraper en Python. Básicamente, estoy tratando de eliminar todos los apuntes de clase de uno de mis cursos, que están en formato PDF. Quiero ingresar una URL y luego obtener los PDF y guardarlos en un directorio en mi computadora portátil. He visto varios tutoriales, pero no estoy […]

Python-pedidos: obteniendo el encabezado del contenido de la respuesta sin consumirlo todo.

Al usar python-pedidos y python-magic, me gustaría probar el tipo mime de un recurso web sin recuperar todo su contenido (especialmente si este recurso es, por ejemplo, un archivo ogg o un archivo PDF). Basado en el resultado, podría decidir buscarlo todo. Sin embargo, llamar al método de texto después de haber probado el tipo […]

¿Cómo realizar una descarga de respuesta limitada en el tiempo con solicitudes de python?

Al descargar un archivo grande con python, quiero poner un límite de tiempo no solo para el proceso de conexión, sino también para la descarga. Estoy tratando con el siguiente código de python: import requests r = requests.get(‘http://ipv4.download.thinkbroadband.com/1GB.zip’, timeout = 0.5, prefetch = False) print r.headers[‘content-length’] print len(r.raw.read()) Esto no funciona (la descarga no tiene […]

python ssl eof ocurrió en violación del protocolo, wantwriteerror, zeroreturnerror

Estoy ejecutando muchas tareas de apio (20,000) usando gevent para la piscina (también para parches de mono). Cada una de estas tareas afecta a servicios de terceros como adwords para extraer datos. Sigo teniendo tareas fallidas debido a errores SSL subyacentes. A continuación se muestran los seguimientos de stack de algunas de las excepciones (en […]

¿Por qué recibo un error de tiempo de espera del módulo de solicitudes de Pythons?

Uso requests.post(url, headers, timeout=10) y algunas veces recibí una ReadTimeout exception HTTPSConnectionPool(host=’domain.com’, port=443): Read timed out. (read timeout=10) requests.post(url, headers, timeout=10) ReadTimeout exception HTTPSConnectionPool(host=’domain.com’, port=443): Read timed out. (read timeout=10) ReadTimeout exception HTTPSConnectionPool(host=’domain.com’, port=443): Read timed out. (read timeout=10) Dado que ya he establecido el tiempo de espera en 10 segundos, ¿por qué sigo recibiendo […]

Obtenga el tamaño del archivo utilizando solicitudes de python, mientras que solo obtiene el encabezado

He mirado la documentación de las solicitudes, pero parece que no puedo encontrar nada. ¿Cómo solo solicito el encabezado para poder evaluar el tamaño del archivo?

Cómo pasar la autenticación de proxy (requiere autenticación de resumen) mediante el uso del módulo de solicitudes de Python

Estuve usando el módulo Mechanize hace un tiempo, y ahora trato de usar el módulo de Solicitudes. (La mecanización de Python no funciona cuando se requiere autenticación HTTPS y Proxy ) Tengo que pasar por el servidor proxy cuando accedo a Internet. El servidor proxy requiere autenticación. Escribí los siguientes códigos. import requests from requests.auth […]