NLTK no pudo encontrar stanford-postagger.jar! Establecer la variable de entorno CLASSPATH

Estoy trabajando en un proyecto que me obliga a etiquetar tokens utilizando nltk y python. Así que quise usar esto. Pero surgieron algunos problemas. Pasé por muchas otras preguntas ya hechas y otros foros, pero todavía no podía obtener una solución a este problema. El problema es cuando bash ejecutar lo siguiente:


from nltk.tag import StanfordPOSTagger st = StanfordPOSTagger('english-bidirectional-distsim.tagger')


Me sale lo siguiente:


  Traceback (most recent call last): `File "", line 1, in  st = StanfordPOSTagger('english-bidirectional-distsim.tagger')` `File "C:\Users\MY3\AppData\Local\Programs\Python\Python35-32\lib\site-packages\nltk-3.1-py3.5.egg\nltk\tag\stanford.py", line 131, in __init__ super(StanfordPOSTagger, self).__init__(*args, **kwargs)` `File "C:\Users\MY3\AppData\Local\Programs\Python\Python35-32\lib\site-packages\nltk-3.1-py3.5.egg\nltk\tag\stanford.py", line 53, in __init__ verbose=verbose)` `File "C:\Users\MY3\AppData\Local\Programs\Python\Python35-32\lib\site-packages\nltk-3.1-py3.5.egg\nltk\internals.py", line 652, in find_jar searchpath, url, verbose, is_regex))` `File "C:\Users\MY3\AppData\Local\Programs\Python\Python35-32\lib\site-packages\nltk-3.1-py3.5.egg\nltk\internals.py", line 647, in find_jar_iter raise LookupError('\n\n%s\n%s\n%s' % (div, msg, div))` LookupError: =========================================================================== NLTK was unable to find stanford-postagger.jar! Set the CLASSPATH environment variable. =========================================================================== 

Ya configuré CLASSPATH – C:\Users\MY3\Desktop\nltk\stanford\stanford-postagger.jar Lo probé como C:\Users\MY3\Desktop\nltk\stanford también ..

STANFORD_MODELS – C:\Users\MY3\Desktop\nltk\stanford\models\

Intenté hacer esto también … en vano File "C:\Python27\lib\site-packages\nltk\tag\stanford.py", line 45, in __init__ env_vars=('STANFORD_MODELS',), verbose=verbose) Pero tampoco resuelve el problema. Por favor, ayúdame a resolver este problema.

Yo uso Windows 8, Python 3.5 y nltk 3.1

Actualizar

La respuesta original fue escrita para Stanford POS Tagger Versión 3.6.0, Fecha 2015-12-09

Hay una nueva versión (3.7.0, lanzada 2016-10-31) . Aquí está el código para la versión más nueva:

 from nltk.tag import StanfordPOSTagger from nltk import word_tokenize # Add the jar and model via their path (instead of setting environment variables): jar = 'your_path/stanford-postagger-full-2016-10-31/stanford-postagger.jar' model = 'your_path/stanford-postagger-full-2016-10-31/models/english-left3words-distsim.tagger' pos_tagger = StanfordPOSTagger(model, jar, encoding='utf8') text = pos_tagger.tag(word_tokenize("What's the airspeed of an unladen swallow ?")) print(text) 

Respuesta original

Tuve el mismo problema (pero al usar OS X y PyCharm), finalmente lo hice funcionar. Esto es lo que he reunido de la documentación de StanfordPOSTagger y el trabajo de alvas sobre el tema ( ¡muchas gracias!):

 from nltk.internals import find_jars_within_path from nltk.tag import StanfordPOSTagger from nltk import word_tokenize # Alternatively to setting the CLASSPATH add the jar and model via their path: jar = '/Users/nischi/PycharmProjects/stanford-postagger-full-2015-12-09/stanford-postagger.jar' model = '/Users/nischi/PycharmProjects/stanford-postagger-full-2015-12-09/models/english-left3words-distsim.tagger' pos_tagger = StanfordPOSTagger(model, jar) # Add other jars from Stanford directory stanford_dir = pos_tagger._stanford_jar.rpartition('/')[0] stanford_jars = find_jars_within_path(stanford_dir) pos_tagger._stanford_jar = ':'.join(stanford_jars) text = pos_tagger.tag(word_tokenize("What's the airspeed of an unladen swallow ?")) print(text) 

Espero que esto ayude.