Python nltk descarga y descarga_shell ambos se congelan (cuelgan) en el bash punkt

Utilizando NLTK 2.0.4. instalado para PyDon-2.7.3 de EPD ( no Canopy). en Ubuntu 12.10. En la terminal escribo:

In [96]: nltk.download_shell() NLTK Downloader --------------------------------------------------------------------------- d) Download l) List u) Update c) Config h) Help q) Quit --------------------------------------------------------------------------- Downloader> d Download which package (l=list; x=cancel)? Identifier> punkt Downloading package 'punkt' to /home/espears/nltk_data... 

Y luego se congela. El archivo punkt.zip relevante se escribe en el directorio indicado, pero la interfaz de download nunca cede.

Este ejemplo es con IPython, pero intenté lo mismo con el intérprete Python 2.7.3 normal y obtuve el mismo resultado.

Cuando trato de usar unzip para descomprimir el archivo directamente, veo errores que indican que no se encuentra el código correcto del archivo zip central dentro del archivo y que no se puede descomprimir. Vea abajo:

 espears@computer ~/nltk_data/tokenizers $ unzip punkt.zip Archive: punkt.zip End-of-central-directory signature not found. Either this file is not a zipfile, or it constitutes one disk of a multi-part archive. In the latter case the central directory and zipfile comment will be found on the last disk(s) of this archive. unzip: cannot find zipfile directory in one of punkt.zip or punkt.zip.zip, and cannot find punkt.zip.ZIP, period. 

Esto sucede tanto con nltk.download() como con nltk.download_shell() de la misma manera.

Puedo inspeccionar el archivo .zip usando du para ver que inicialmente su tamaño aumenta de 0 MB a aproximadamente 2.7 MB, por lo que en realidad está descargando algo y el archivo no está vacío. Pero se detiene en 2.7 MB (que puede corresponder o no al tamaño completo esperado del archivo) y luego el progtwig de descarga de shell de Python se congela.

Tuve el mismo problema y descargué los elementos necesarios manualmente desde el siguiente enlace:

http://nltk.org/nltk_data/

No es la solución deseada, pero funcionará hasta que se solucione.

ACTUALIZAR:

De hecho, pude ejecutar nltk.download () para instalar cmudict. ¿Quizás este problema solo afecta ciertos paquetes?

Tuve el mismo problema con nltk 3.0.01b. Descargué el paquete del “libro” y monitoreé la descarga desde la pantalla de red del administrador de tareas mientras comprobaba el tamaño de la carpeta de destino (AppData \ Roaming \ nltk_data en mi sistema Windows 7). El tráfico de la red cesó y la carpeta dejó de crecer a un tamaño de 379 MB. Pero la shell de Python estaba bloqueada. El siguiente fue el último mensaje mostrado:

mostrando información http://nltk.github.com/nltk_data/

Sin embargo, si cancela la ventana Tk que muestra qué elementos de descarga están disponibles, el nltk.download() finalizará y el indicador de comandos de shell volverá.

Lo más probable es que no esté atascado. Puede estar descargando. Se descarga a una velocidad mucho más lenta incluso si tiene buena conectividad a Internet. Seguí revisando el tamaño de la carpeta usando un bucle while y siguió aumentando y finalmente fue exitoso. Habría funcionado si hubieras esperado. Es posible que la descompresión haya fallado porque intentó descomprimirlo antes de descargar el archivo completo.