Articles of urllib2

Usando una cookie de sesión de selenium en urllib2

Estoy tratando de usar Selenium para iniciar sesión en un sitio web y luego usar urllib2 para hacer solicitudes de RESTAURACIÓN. Sin embargo, para que funcione, necesito que urllib2 pueda usar la misma sesión que usó Selenium. El inicio de sesión con selenium funcionó muy bien y puedo llamar self.driver.get_cookies() y tengo una lista de […]

¿Por qué obtengo un error de atributo cuando bash imprimir?

Estoy aprendiendo sobre urllib2 siguiendo este tutorial http://docs.python.org/howto/urllib2.html#urlerror Ejecutar el siguiente código produce un resultado diferente del tutorial import urllib2 req = urllib2.Request(‘http://www.pretend-o-server.org’) try: urllib2.urlopen(req) except urllib2.URLError, e: print e.reason El intérprete de Python escupe esto de vuelta Traceback (most recent call last): File “urlerror.py”, line 8, in print e.reason AttributeError: ‘HTTPError’ object has no […]

Use Python para acceder a un sitio con seguridad PKI

Tengo un sitio que tiene la seguridad PKI habilitada. Cada cliente usó un lector de tarjetas para cargar su certificado, o el certificado se instala en el almacenamiento de certificados de IE en su caja. Así que mi pregunta es: ¿Cómo puedo usar el certificado del lector de tarjetas o el certificado almacenado en el […]

Python – Obteniendo url un navegador fue redirigido a

Estoy tratando de autenticar una aplicación con la API. Así es cómo: Estoy abriendo una URL usando webbrowser.open . El usuario autentica la aplicación y se redirige a otra URL, que es https://stackexchange.com/oauth/login_success con argumentos codificados con esta URL. Una url de redireccionamiento de muestra es: …/login_success#access_token=xyz&expires=00000 Mi código actual: auth_url = ‘https://stackexchange.com/oauth/dialog’ def authenticate(): […]

python ssl eof ocurrió en violación del protocolo, wantwriteerror, zeroreturnerror

Estoy ejecutando muchas tareas de apio (20,000) usando gevent para la piscina (también para parches de mono). Cada una de estas tareas afecta a servicios de terceros como adwords para extraer datos. Sigo teniendo tareas fallidas debido a errores SSL subyacentes. A continuación se muestran los seguimientos de stack de algunas de las excepciones (en […]

urllib2 error HTTP 429

Así que tengo una lista de sub-reddits y estoy usando urllib para abrirlos. A medida que paso por ellos, urllib falla con: urllib2.HTTPError: HTTP Error 429: Unknown Investigando un poco, descubrí que reddit limita la cantidad de solicitudes a sus servidores por IP: No haga más de una solicitud cada dos segundos. Hay un margen […]

Python – Ejemplo de urllib2 asíncrono / solicitud de hilo usando HTTPS

Me está costando muchísimo conseguir que las solicitudes HTTPS asíncronas / subprocesadas funcionen utilizando el urllib2 de Python. ¿Alguien por ahí tiene un ejemplo básico que implementa urllib2.Request, urllib2.build_opener y una subclase de urllib2.HTTPSHandler? ¡Gracias!

Python urllib2 URLError código de estado HTTP.

Quiero capturar el código de estado HTTP una vez que genera una excepción URLError: Intenté esto pero no ayudé except URLError, e: logger.warning( ‘It seems like the server is down. Code:’ + str(e.code) )

Extraer el contenido del artículo de noticias de las páginas .html almacenadas

Estoy leyendo texto de archivos html y haciendo un análisis. Estos archivos .html son artículos de noticias. Código: html = open(filepath,’r’).read() raw = nltk.clean_html(html) raw.unidecode(item.decode(‘utf8’)) Ahora solo quiero el contenido del artículo y no el rest del texto como anuncios, encabezados, etc. ¿Cómo puedo hacerlo con relativa precisión en Python? Conozco algunas herramientas como Jsoup […]

Cómo publicar un elemento xml en python

Básicamente tengo este elemento xml (xml.etree.ElementTree) y quiero enviarlo a una URL. Actualmente estoy haciendo algo como xml_string = xml.etree.ElementTree.tostring(my_element) data = urllib.urlencode({‘xml’: xml_string}) response = urllib2.urlopen(url, data) Estoy bastante seguro de que eso funciona y todo, pero me preguntaba si hay alguna mejor práctica o forma de hacerlo sin convertirlo primero en una cadena. […]