Articles of urllib

un raspado web (probablemente básico) de http://www.ssa.gov/cgi-bin/popularnames.cgi en urllib

Soy muy nuevo en Python (y web scraping). Permítame hacerle una pregunta. Muchos sitios web en realidad no reportan sus URL específicas en Firefox u otros navegadores. Por ejemplo, la Administración del Seguro Social muestra nombres de bebés populares con rangos (desde 1880), pero la URL no cambia cuando cambio el año de 1880 a […]

¿Cómo ignorar la configuración del proxy de Windows con python urllib?

Quiero que Python ignore la configuración del proxy de Windows cuando use urllib . La única forma en que logré hacerlo fue deshabilitando todas las configuraciones de proxy en Internet Explorer. ¿Hay alguna forma programática? os.environ[‘no_proxy’] no es una buena opción, ya que me gustaría evitar el proxy para todas las direcciones.

Error al descargar el archivo grande en Python: el archivo comprimido finalizó antes de que se alcanzara el marcador de fin de secuencia

Estoy descargando un archivo comprimido de internet: with lzma.open(urllib.request.urlopen(url)) as file: for line in file: … Después de haber descargado y procesado una gran parte del archivo, eventualmente recibo el error: Archivo “/usr/lib/python3.4/lzma.py”, línea 225, en _fill_buffer raise EOFError (“El archivo comprimido finalizó antes de” EOFError: El archivo comprimido terminó antes de que se alcanzara […]

Python 3.5.1 urllib no tiene solicitud de atributo

Yo he tratado import urllib.request o import urllib La ruta para mi urllib es /Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/urllib/__init__.py Me pregunto dónde está urlopen, o mi módulo de python apunta al archivo incorrecto?

Usando urllib y minidom para obtener datos XML

Estoy tratando de obtener datos de un servicio XML … este. http://xmlweather.vedur.is/?op_w=xml&type=forec&lang=is&view=xml&ids=1 Estoy usando urrlib y minidom y parece que no puedo hacer que funcione. He usado minidom con archivos y no url. Este es el código que estoy intentando usar. xmlurl = ‘http://xmlweather.vedur.is’ xmlpath = xmlurl + ‘?op_w=xml&type=forec&lang=is&view=xml&ids=’ + str(location) xmldoc = minidom.parse(urllib.urlopen(xmlpath)) ¿Alguien […]

¿Un descargador multiparte / roscado a través de Python?

He visto algunos descargadores de hilos en línea e incluso algunos descargadores de varias partes (HTTP). No los he visto juntos como una clase / función. Si alguno de ustedes tiene una clase / función por ahí, que solo puedo colocar en cualquiera de mis aplicaciones donde necesito capturar varios archivos, estaría muy agradecido. Si […]

¿Cómo elimino una etiqueta falsa en BeautifulSoup?

Estoy sacando texto de los debates presidenciales. Llegué a uno que tiene un problema: convierte erróneamente cada mención de la palabra “debate” en una etiqueta . Adelante, busque “Bienvenido de nuevo a la presidencia republicana”; nota una palabra obvia que falta? Genial, así que BeautifulSoup hace un excelente trabajo de limpiar el HTML desordenado y […]

urlopen problemas al intentar descargar un archivo gzip

Voy a utilizar el volcado wiktionary con el propósito de etiquetar POS. De alguna manera se atasca al descargar. Aquí está mi código: import nltk from urllib import urlopen from collections import Counter import gzip url = ‘http://dumps.wikimedia.org/enwiktionary/latest/enwiktionary-latest-all-titles-in-ns0.gz’ fStream = gzip.open(urlopen(url).read(), ‘rb’) dictFile = fStream.read() fStream.close() text = nltk.Text(word.lower() for word in dictFile()) tokens = […]

urllib3 maxretryError

Acabo de comenzar a usar urllib3 y me estoy encontrando con un problema de inmediato Según sus manuales, comencé con el simple ejemplo: Python 2.7.1+ (r271:86832, Apr 11 2011, 18:13:53) [GCC 4.5.2] on linux2 Type “help”, “copyright”, “credits” or “license” for more information. >>> import urllib3 >>> >>> http = urllib3.PoolManager() >>> r = http.request(‘GET’, […]

Descargar desde EXPLOSM.net Comics Script

Así que escribí este breve guión (¿palabra correcta?) Para descargar las imágenes de cómics de los cómics de explosm.net porque hace poco me enteré y quiero … ponerlo en mi iPhone … 3G. Funciona bien y todo. urllib2 para obtener el html de la página web y urllib para image.retrieve () ¿Por qué publiqué esto […]