Articles of urllib

página de raspado para obtener los precios de Google Finance

Estoy tratando de obtener precios de las acciones al raspar las páginas de Google Finance, estoy haciendo esto en Python, usando el paquete urllib y luego usando expresiones regulares para obtener datos de precios. Cuando dejo mi script de Python en ejecución, inicialmente funciona durante un tiempo (unos minutos) y luego comienza a lanzar la […]

acelerando urlib.urlretrieve

Estoy descargando imágenes de Internet y, como resultado, necesito descargar muchas imágenes. Estoy usando una versión del siguiente fragmento de código (en realidad recorre los enlaces que pretendo descargar y descargar las imágenes: import urllib urllib.urlretrieve(link, filename) Estoy descargando aproximadamente 1000 imágenes cada 15 minutos, lo que es muy lento según la cantidad de imágenes […]

Python: inicia sesión en un sitio web utilizando urllib

Quiero iniciar sesión en este sitio web: https://www.fitbit.com/login Este es mi código que utilizo: import urllib2 import urllib import cookielib login_url = ‘https://www.fitbit.com/login’ acc_pwd = {‘login’:’Log In’,’email’:’username’,’password’:’pwd’} cj = cookielib.CookieJar() ## add cookies opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) opener.addheaders = [(‘User-agent’,’Mozilla/5.0 \ (compatible; MSIE 6.0; Windows NT 5.1)’)] data = urllib.urlencode(acc_pwd) try: opener.open(login_url,data,10) print ‘log in – […]

reemplazar los caracteres especiales en una cadena de python

Estoy usando urllib para obtener una cadena de html de un sitio web y necesito poner cada palabra en el documento html en una lista. Aquí está el código que tengo hasta ahora. Sigo recibiendo un error. También he copiado el error de abajo. import urllib.request url = input(“Please enter a URL: “) z=urllib.request.urlopen(url) z=str(z.read()) […]

¿Qué comando usar en lugar de urllib.request.urlretrieve?

Actualmente estoy escribiendo un script que descarga un archivo desde una URL import urllib.request urllib.request.urlretrieve(my_url, ‘my_filename’) De acuerdo con los documentos, urllib.request.urlretrieve es una interfaz heredada y puede quedar obsoleta, por lo que me gustaría evitarla para no tener que volver a escribir este código en un futuro próximo. No puedo encontrar otra interfaz como […]

BeautifulSoup no extrae todos los html

Estamos intentando obtener las URL de los productos en esta página del sitio de Forever 21 ( http://www.forever21.com/Product/Category.aspx?br=f21&category=dress&pagesize=100&page=1 ). Por alguna razón, BeautifulSoup no está obteniendo los elementos con la clase “item_pic”, a pesar de que están en el sitio html. Hemos intentado usar peticiones, mecanizar, selenium, y no estamos teniendo suerte. Todo el código […]

¿Por qué obtengo un error de atributo cuando bash imprimir?

Estoy aprendiendo sobre urllib2 siguiendo este tutorial http://docs.python.org/howto/urllib2.html#urlerror Ejecutar el siguiente código produce un resultado diferente del tutorial import urllib2 req = urllib2.Request(‘http://www.pretend-o-server.org’) try: urllib2.urlopen(req) except urllib2.URLError, e: print e.reason El intérprete de Python escupe esto de vuelta Traceback (most recent call last): File “urlerror.py”, line 8, in print e.reason AttributeError: ‘HTTPError’ object has no […]

Reproducir el contenido de un sonido recuperado de una url?

Estoy recuperando el sonido de: http://translate.google.com/translate_tts y al escribirlo en un archivo WAV, cuando hago doble clic en el archivo, el sonido se reproduce bien, pero cuando uso el módulo WAVE de Python para abrirlo, me da este error: wave.Error: el archivo no comienza con RIFF id Quiero saber si hay una manera de abrir […]

analizar la cadena de consulta con urllib en Python 2.4

Usando Python2.4.5 (¡no preguntes!) Quiero analizar una cadena de consulta y obtener un dictado a cambio. ¿Tengo que hacerlo “manualmente” como sigue? >>> qs = ‘first=1&second=4&third=3’ >>> d = dict([x.split(“=”) for x in qs.split(“&”)]) >>> d {‘second’: ‘4’, ‘third’: ‘3’, ‘first’: ‘1’} No encontré ningún método útil en urlparse .

La descarga del segundo archivo de ftp falla

Quiero descargar varios archivos desde FTP en Python. El código de mi funciona cuando acabo de descargar 1 archivo, ¡pero no funciona para más de uno! import urllib urllib.urlretrieve(‘ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_package/00/00/PMC1790863.tar.gz’, ‘file1.tar.gz’) urllib.urlretrieve(‘ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_package/00/00/PMC2329613.tar.gz’, ‘file2.tar.gz’) Un error dice: Traceback (most recent call last): File “/home/ehsan/dev_center/bigADEVS-bknd/daemons/crawler/ftp_oa_crawler.py”, line 3, in urllib.urlretrieve(‘ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_package/00/00/PMC2329613.tar.gz’, ‘file2.tar.gz’) File “/usr/lib/python2.7/urllib.py”, line 98, in urlretrieve return opener.retrieve(url, […]