Articles of urlopen

Python 3.5.1 urllib no tiene solicitud de atributo

Yo he tratado import urllib.request o import urllib La ruta para mi urllib es /Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/urllib/__init__.py Me pregunto dónde está urlopen, o mi módulo de python apunta al archivo incorrecto?

urlopen problemas al intentar descargar un archivo gzip

Voy a utilizar el volcado wiktionary con el propósito de etiquetar POS. De alguna manera se atasca al descargar. Aquí está mi código: import nltk from urllib import urlopen from collections import Counter import gzip url = ‘http://dumps.wikimedia.org/enwiktionary/latest/enwiktionary-latest-all-titles-in-ns0.gz’ fStream = gzip.open(urlopen(url).read(), ‘rb’) dictFile = fStream.read() fStream.close() text = nltk.Text(word.lower() for word in dictFile()) tokens = […]

¿Hay alguna manera de raspar la página de listado de productos de Amazon usando Python?

Estoy intentando eliminar las páginas de productos que muestran los proveedores y los precios de productos particulares, pero urllib.urlopen no funciona; funcionará en todas las demás páginas de Amazon, pero me pregunto si los robots de Amazon previenen raspado en las páginas de listado de productos. ¿Alguien puede verificar esto? Usando Chrome todavía puedo ver […]

¿Por qué urllib2.urlopen no puede abrir páginas como “http: // localhost / new-post # comment-29”?

Tengo curiosidad, ¿por qué recibo un error 404 al ejecutar esta línea? urllib2.urlopen(“http://localhost/new-post#comment-29″) Si bien todo funciona bien navegando en http: // localhost / new-post # comment-29 en cualquier navegador … ¿El método urlopen no analiza las URL con “#” en él? ¿Cualquiera sabe?

Cómo procesar datos web de forma confiable en Python

Estoy usando el siguiente código para obtener datos de un sitio web: time_out = 4 def tryconnect(turl, timer=time_out, retries=10): urlopener = None sitefound = 1 tried = 0 while (sitefound != 0) and tried < retries: try: urlopener = urllib2.urlopen(turl, None, timer) sitefound = 0 except urllib2.URLError: tried += 1 if urlopener: return urlopener else: […]

¿Cómo configuro las cookies usando Python urlopen?

Estoy tratando de obtener un sitio html usando Python urlopen. Estoy recibiendo este error: HTTPError: HTTP Error 302: El servidor HTTP devolvió un error de redirección que llevaría a un bucle infinito El código: from urllib2 import Request request = Request(url) response = urlopen(request) Entiendo que el servidor redirige a otra URL y que está […]

Usando urlopen para abrir la lista de urls

Tengo un script en python que recupera una página web y la refleja. Funciona bien para una página específica, pero no puedo hacer que funcione para más de una. Asumí que podría poner varias URL en una lista y luego enviarlas a la función, pero recibo este error: Traceback (most recent call last): File “autowget.py”, […]

urllib2.urlopen sin tampón

Tengo cliente para la interfaz web para el proceso de larga ejecución. Me gustaría que la salida de ese proceso se muestre tal como aparece. Funciona muy bien con urllib.urlopen() , pero no tiene un parámetro de timeout . Por otro lado, con urllib2.urlopen() la salida está en búfer. ¿Hay una manera fácil de deshabilitar […]

Error 503 al intentar acceder a Google Patents usando python

Anteriormente, hoy pude extraer datos de Google Patents usando el siguiente código import urllib2 url = ‘http://www.google.com/search?tbo=p&q=ininventor:”John-Mudd”&hl=en&tbm=pts&source=lnt&tbs=ptso:us’ req = urllib2.Request(url, headers={‘User-Agent’ : “foobar”}) response = urllib2.urlopen(req) Ahora cuando voy a ejecutarlo obtengo el siguiente error 503. Solo había repasado este código tal vez 30 veces (estoy tratando de obtener todas las patentes de una lista […]

De nuevo urllib.error.HTTPError: HTTP Error 400: Solicitud incorrecta

Hy! Intenté abrir una página web, que normalmente se abre en el navegador, pero Python simplemente jura y no quiere trabajar. import urllib.request, urllib.error f = urllib.request.urlopen(‘http://www.booking.com/reviewlist.html?cc1=tr;pagename=sapphire’) Y otra forma import urllib.request, urllib.error opener=urllib.request.build_opener() f=opener.open(‘http://www.booking.com/reviewlist.html?cc1=tr;pagename=sapphi re’) Ambas opciones dan un tipo de error: Traceback (most recent call last): File “”, line 1, in File “C:\Python34\lib\urllib\request.py”, […]