Descarga de una imagen a través de urllib y python

Así que estoy tratando de hacer un script de Python que descargue webcomics y los ponga en una carpeta en mi escritorio. He encontrado algunos progtwigs similares aquí que hacen algo similar, pero nada como lo que necesito. El que encontré más similar está aquí ( http://bytes.com/topic/python/answers/850927-problem-using-urllib-download-images ). Intenté usar este código:

>>> import urllib >>> image = urllib.URLopener() >>> image.retrieve("http://sofes.miximages.com/python/00000001.jpg","00000001.jpg") ('00000001.jpg', ) 

Luego busqué en mi computadora un archivo “00000001.jpg”, pero todo lo que encontré fue la imagen guardada en la caché. Ni siquiera estoy seguro de que guardó el archivo en mi computadora. Una vez que entiendo cómo descargar el archivo, creo que sé cómo manejar el rest. Esencialmente solo use un bucle for y divida la cadena en ‘00000000’. ‘Jpg’ e incremente ‘00000000’ hasta el número más grande, que tendría que determinar de alguna manera. ¿Alguna recomendación sobre la mejor manera de hacer esto o cómo descargar el archivo correctamente?

¡Gracias!

EDITAR 15/6/10

Aquí está el script completo, guarda los archivos en cualquier directorio que elija. Por alguna extraña razón, los archivos no se estaban descargando y simplemente lo hicieron. Cualquier sugerencia sobre cómo limpiarlo sería muy apreciada. Actualmente estoy trabajando en cómo descubrir que existen muchos cómics en el sitio para poder obtener solo el más reciente, en lugar de que el progtwig se cierre después de que se produzcan ciertas excepciones.

 import urllib import os comicCounter=len(os.listdir('/file'))+1 # reads the number of files in the folder to start downloading at the next comic errorCount=0 def download_comic(url,comicName): """ download a comic in the form of url = http://www.example.com comicName = '00000000.jpg' """ image=urllib.URLopener() image.retrieve(url,comicName) # download comicName at URL while comicCounter <= 1000: # not the most elegant solution os.chdir('/file') # set where files download to try: if comicCounter < 10: # needed to break into 10^n segments because comic names are a set of zeros followed by a number comicNumber=str('0000000'+str(comicCounter)) # string containing the eight digit comic number comicName=str(comicNumber+".jpg") # string containing the file name url=str("http://www.gunnerkrigg.com//comics/"+comicName) # creates the URL for the comic comicCounter+=1 # increments the comic counter to go to the next comic, must be before the download in case the download raises an exception download_comic(url,comicName) # uses the function defined above to download the comic print url if 10 <= comicCounter < 100: comicNumber=str('000000'+str(comicCounter)) comicName=str(comicNumber+".jpg") url=str("http://www.gunnerkrigg.com//comics/"+comicName) comicCounter+=1 download_comic(url,comicName) print url if 100 <= comicCounter 3: # if more than three errors occur during downloading, quit the program break else: print str("comic"+ ' ' + str(comicCounter) + ' ' + "does not exist") # otherwise say that the certain comic number doesn't exist print "all comics are up to date" # prints if all comics are downloaded 

Utilizando urllib.urlretrieve :

 import urllib urllib.urlretrieve("http://sofes.miximages.com/python/00000001.jpg", "00000001.jpg") 
 import urllib f = open('00000001.jpg','wb') f.write(urllib.urlopen('http://www.gunnerkrigg.com//comics/00000001.jpg').read()) f.close() 

Sólo para el registro, utilizando la biblioteca de solicitudes.

 import requests f = open('00000001.jpg','wb') f.write(requests.get('http://www.gunnerkrigg.com//comics/00000001.jpg').content) f.close() 

Aunque debería comprobar el error de requests.get ().

Para Python 3 necesitará importar import urllib.request :

 import urllib.request urllib.request.urlretrieve(url, filename) 

Para más información visita el enlace.

Versión de Python 3 de la respuesta de @ DiGMi:

 from urllib import request f = open('00000001.jpg', 'wb') f.write(request.urlopen("http://sofes.miximages.com/python/00000001.jpg").read()) f.close() 

He encontrado esta respuesta y la edito de forma más confiable.

 def download_photo(self, img_url, filename): try: image_on_web = urllib.urlopen(img_url) if image_on_web.headers.maintype == 'image': buf = image_on_web.read() path = os.getcwd() + DOWNLOADED_IMAGE_PATH file_path = "%s%s" % (path, filename) downloaded_image = file(file_path, "wb") downloaded_image.write(buf) downloaded_image.close() image_on_web.close() else: return False except: return False return True 

De esto nunca obtendrás ningún otro recurso o excepción durante la descarga.

Es más fácil simplemente usar .read() para leer la respuesta parcial o completa, luego escríbala en un archivo que haya abierto en una buena ubicación conocida.

Quizás necesites ‘User-Agent’:

 import urllib2 opener = urllib2.build_opener() opener.addheaders = [('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.137 Safari/537.36')] response = opener.open('http://google.com') htmlData = response.read() f = open('file.txt','w') f.write(htmlData ) f.close() 

Si sabe que los archivos están ubicados en el mismo directorio del sitio del sitio site y tienen el siguiente formato: nombre_archivo_01.jpg, …, nombre_archivo_10.jpg, descargue todos ellos:

 import requests for x in range(1, 10): str1 = 'filename_%2.2d.jpg' % (x) str2 = 'http://sofes.miximages.com/python/filename_%2.2d.jpg' % (x) f = open(str1, 'wb') f.write(requests.get(str2).content) f.close() 

Además de sugerirle que lea detenidamente los documentos para retrieve() ( http://sofes.miximages.com/python/urllib.html” # CSV file must separate by commas # urls.csv is set to your current working directory make sure your cd into or add the corresponding path with open (‘urls.csv’) as images: images = csv.reader(images) img_count = 1 print(“Please Wait.. it will take some time”) for image in images: try: urllib.request.urlretrieve(image[0], file_list.format(img_count)) img_count += 1 except IOError: errorCount+=1 # Stop in case you reach 100 errors downloading images if errorCount>100: break else: print (“File does not exist”) print (“Done!”)

Todos los códigos anteriores no permiten conservar el nombre de la imagen original, que a veces es necesario. Esto ayudará a guardar las imágenes en su disco local, preservando el nombre de la imagen original

  IMAGE = URL.rsplit('/',1)[1] urllib.urlretrieve(URL, IMAGE) 

Intenta esto para más detalles.

¿Qué pasa con esto?

 import urllib, os def from_url( url, filename = None ): '''Store the url content to filename''' if not filename: filename = os.path.basename( os.path.realpath(url) ) req = urllib.request.Request( url ) try: response = urllib.request.urlopen( req ) except urllib.error.URLError as e: if hasattr( e, 'reason' ): print( 'Fail in reaching the server -> ', e.reason ) return False elif hasattr( e, 'code' ): print( 'The server couldn\'t fulfill the request -> ', e.code ) return False else: with open( filename, 'wb' ) as fo: fo.write( response.read() ) print( 'Url saved as %s' % filename ) return True ## def main(): test_url = 'http://cdn.sstatic.net/stackoverflow/img/favicon.ico' from_url( test_url ) if __name__ == '__main__': main() 

Una solución más simple puede ser (python 3):

 import urllib.request import os os.chdir("D:\\comic") #your path i=1; s="00000000" while i<1000: try: urllib.request.urlretrieve("http://www.gunnerkrigg.com//comics/"+ s[:8-len(str(i))]+ str(i)+".jpg",str(i)+".jpg") except: print("not possible" + str(i)) i+=1; 

Si necesita soporte de proxy puede hacer esto:

  if needProxy == False: returnCode, urlReturnResponse = urllib.urlretrieve( myUrl, fullJpegPathAndName ) else: proxy_support = urllib2.ProxyHandler({"https":myHttpProxyAddress}) opener = urllib2.build_opener(proxy_support) urllib2.install_opener(opener) urlReader = urllib2.urlopen( myUrl ).read() with open( fullJpegPathAndName, "w" ) as f: f.write( urlReader )