Articles of stanford nlp

nltk Stanford NERTagger: cómo obtener nombres propios sin mayúsculas

Estoy tratando de usar Stanford NERTagger y nltk para extraer palabras clave de un fragmento de texto. docText=”John Donk works for POI. Brian Jones wants to meet with Xyz Corp. for measuring POI’s Short Term performance Metrics.” words = re.split(“\W+”,docText) stops = set(stopwords.words(“english”)) #remove stop words from the list words = [w for w in […]

cómo acelerar el reconocimiento NE con stanford NER con python nltk

Primero tokenize el contenido del archivo en oraciones y luego llamo al NER de Stanford en cada una de las oraciones. Pero este proceso es realmente lento. Sé que si lo llamo en todo el contenido del archivo sería más rápido, pero lo hago en cada oración, ya que deseo indexar cada oración antes y […]

Simplificando el conjunto de tags POS francesas con NLTK

¿Cómo se puede simplificar la parte de las tags de voz devueltas por el etiquetador POS francés de Stanford? Es bastante fácil leer una oración en inglés en NLTK, encontrar la parte del discurso de cada palabra y luego usar map_tag () para simplificar el conjunto de tags: #!/usr/bin/python # -*- coding: utf-8 -*- import […]

Nltk stanford pos tagger error: error del comando de Java

Estoy tratando de usar el nltk.tag.stanford module para etiquetar una oración (primero como el ejemplo de wiki) pero sigo recibiendo el siguiente error: Traceback (most recent call last): File “test.py”, line 28, in print st.tag(word_tokenize(‘What is the airspeed of an unladen swallow ?’)) File “/usr/local/lib/python2.7/dist-packages/nltk/tag/stanford.py”, line 59, in tag return self.tag_sents([tokens])[0] File “/usr/local/lib/python2.7/dist-packages/nltk/tag/stanford.py”, line 81, […]

¿Cómo hacer un árbol a partir de la salida de un analizador de dependencia?

Estoy intentando hacer un árbol (diccionario nested) a partir de la salida del analizador de dependencias. La frase es “Le disparé a un elefante mientras dormía”. Puedo obtener la salida como se describe en el enlace: ¿Cómo hago el análisis de dependencias en NLTK? nsubj(shot-2, I-1) det(elephant-4, an-3) dobj(shot-2, elephant-4) prep(shot-2, in-5) poss(sleep-7, my-6) pobj(in-5, […]

¿Cómo puedo extraer la dirección del texto sin formato utilizando NLTK en python?

Tengo este texto ” ‘Hola, el Sr. Sam D. Richards vive aquí, 44 West 22nd Street, New York, NY 12345 . ¿Puedes contactarlo ahora? Si necesita ayuda, llámeme al 12345678 ” ‘ . ¿Cómo se puede extraer la parte de la dirección del texto anterior utilizando NLTK? He probado Stanford NER Tagger , que solo […]

Encontrar el encabezado de una frase nominal en NLTK y stanford parse de acuerdo con las reglas de encontrar el encabezado de un NP

en general, el encabezado de una frase nominal es un sustantivo que se encuentra en el extremo derecho del NP, como se muestra debajo del árbol, el encabezado del NP principal. Asi que RAÍZ | S ___ | ________________________ NP | ___ | _____________ | | PP VP | ____ | ____ ____ | ___ […]

Stanford Dependency Parser Setup y NLTK

Así que conseguí el “estándar” Stanford Parser para trabajar gracias a las respuestas de danger89 a este post anterior, Stanford Parser y NLTK . Sin embargo, ahora estoy intentando que el analizador de dependencias funcione y parece que el método resaltado en el enlace anterior ya no funciona. Aquí está mi código: import nltk import […]

nltk Stanford NERTagger: NoClassDefFoundError: org / slf4j / LoggerFactory (en Windows)

NOTA: Estoy usando Python 2.7 como parte de la distribución de Anaconda. Espero que esto no sea un problema para nltk 3.1. Estoy tratando de usar nltk para NER como import nltk from nltk.tag.stanford import StanfordNERTagger #st = StanfordNERTagger(‘stanford-ner/all.3class.distsim.crf.ser.gz’, ‘stanford-ner/stanford-ner.jar’) st = StanfordNERTagger(‘english.all.3class.distsim.crf.ser.gz’) print st.tag(str) pero entiendo Exception in thread “main” java.lang.NoClassDefFoundError: org/slf4j/LoggerFactory at edu.stanford.nlp.io.IOUtils.(IOUtils.java:41) […]

Chunking Stanford Named Entity Recognizer (NER) genera salidas desde el formato NLTK

Estoy usando NER en NLTK para encontrar personas, ubicaciones y organizaciones en oraciones. Soy capaz de producir los resultados de esta manera: [(u’Remaking’, u’O’), (u’The’, u’O’), (u’Republican’, u’ORGANIZATION’), (u’Party’, u’ORGANIZATION’)] ¿Es posible unir las cosas juntas usándolas? Lo que quiero es así: u’Remaking’/ u’O’, u’The’/u’O’, (u’Republican’, u’Party’)/u’ORGANIZATION’ ¡Gracias!