error de archivo zip incorrecto en el etiquetado de POS en NLTK en python

Soy nuevo en Python y NLTK … Quiero hacer tokenización de palabras y etiquetado POS en esto. Instalé Nltk 3.0 en mi Ubuntu 14.04 teniendo un python predeterminado 2.7.6. Primero intenté hacer tokenización de una oración simple. Pero yo Estoy recibiendo un error, diciendo que “BadZipfile: File no es un archivo zip” .¿Cómo resolver esto?

..Una duda más … es decir, di ruta como “/ usr / share / nltk_data” cuando instalé datos Nltk (usando la línea de comandos). Algunos de los paquetes no pudieron instalarse debido a algunos errores. Pero muestra otras rutas cuando cheked mediante el comando “nltk.data.path” y las otras rutas no son válidas en realidad … ¿por qué?

Tengo 1000 archivos de texto. Cómo codificar un progtwig para tokenización y etiquetado POS para esta cantidad de archivos juntos como entrada en Python … no sé … Por favor, ayúdeme …

La forma en que utilicé los comandos en el intérprete de Python, se muestra a continuación en el mismo orden a continuación.

Python 2.7.6 (default, Mar 22 2014, 22:59:56) [GCC 4.8.2] on linux2 Type "copyright", "credits" or "license()" for more information. >>> import nltk >>> nltk.data.path ['/home/ubuntu/nltk_data', '/usr/share/nltk_data', '/usr/local/share/nltk_data', '/usr/lib/nltk_data', '/usr/local/lib/nltk_data'] >>> from nltk import pos_tag, word_tokenize >>> sentence = "Hello my name is Derek. I live in Salt Lake city." >>> sentence 'Hello my name is Derek. I live in Salt Lake city.' >>> word_tokenize(sentence) Traceback (most recent call last): File "", line 1, in  word_tokenize(sentence) File "/usr/local/lib/python2.7/dist-packages/nltk/tokenize/__init__.py", line 93, in word_tokenize return [token for sent in sent_tokenize(text) File "/usr/local/lib/python2.7/dist-packages/nltk/tokenize/__init__.py", line 81, in sent_tokenize tokenizer = load('tokenizers/punkt/english.pickle') File "/usr/local/lib/python2.7/dist-packages/nltk/data.py", line 774, in load opened_resource = _open(resource_url) File "/usr/local/lib/python2.7/dist-packages/nltk/data.py", line 888, in _open return find(path_, path + ['']).open() File "/usr/local/lib/python2.7/dist-packages/nltk/data.py", line 605, in find return find(modified_name, paths) File "/usr/local/lib/python2.7/dist-packages/nltk/data.py", line 592, in find return ZipFilePathPointer(p, zipentry) File "/usr/local/lib/python2.7/dist-packages/nltk/compat.py", line 380, in _decorator return init_func(*args, **kwargs) File "/usr/local/lib/python2.7/dist-packages/nltk/data.py", line 449, in __init__ zipfile = OpenOnDemandZipFile(os.path.abspath(zipfile)) File "/usr/local/lib/python2.7/dist-packages/nltk/compat.py", line 380, in _decorator return init_func(*args, **kwargs) File "/usr/local/lib/python2.7/dist-packages/nltk/data.py", line 946, in __init__ zipfile.ZipFile.__init__(self, filename) File "/usr/lib/python2.7/zipfile.py", line 770, in __init__ self._RealGetContents() File "/usr/lib/python2.7/zipfile.py", line 811, in _RealGetContents raise BadZipfile, "File is not a zip file" BadZipfile: File is not a zip file >>> 

Gracias por adelantado…..

Al parecer, aún no has ejecutado download_corpora.py (con éxito).