Articles of nltk

Proceso de PNL para combinar colocaciones comunes.

Tengo un corpus en el que estoy usando el paquete tm en R (y también imitando el mismo script en NLTK en python). Estoy trabajando con unigtwigs, pero me gustaría un parser de algún tipo para combinar palabras comúnmente ubicadas como si fueran una sola palabra, es decir, me gustaría dejar de ver “Nuevo” y […]

¿Cómo agregar puntuación al texto usando python?

Estoy jugando con la IBM Watson Speech To Text Service API . Para aquellos que no conocen este servicio se está utilizando para transcribir audio. Subes un archivo de audio al servicio y te devuelve el texto. El servicio ha sido bueno hasta ahora, pero el problema es que el texto devuelto no contiene signos […]

nltk NgramModel error

Anteriormente he usado la clase NgramModel en nltk sin error. Sin embargo, recientemente actualicé nltk a la versión 3.1 y ya no puedo encontrar la clase NgramModel . Cuando bash importar como de costumbre: from nltk.model import NgramModel Me sale el error ImportError: No module named ‘nltk.model’ . ¿Ha sido reemplazado recientemente NgramModel o el […]

Palabras que coinciden con el analizador de fragmentos de NLTK

Las expresiones regulares de NLTK chunk parser pueden coincidir con las tags POS, pero ¿pueden también coincidir con palabras específicas? Entonces, supongamos que quiero fragmentar cualquier estructura con un sustantivo seguido del verbo “izquierda” (llame a este patrón L). Por ejemplo, la frase “the \ DT dog \ NN left \ VB” se debe dividir […]

NLTK Wordnet Synset para frase de palabra

Estoy trabajando con Python NLTK Wordnet API. Estoy tratando de encontrar el mejor synset que represente un grupo de palabras. Si necesito encontrar el mejor sincronizador para algo como “artículos escolares y de oficina”, no estoy seguro de cómo hacerlo. Hasta ahora, he intentado encontrar los synsets para las palabras individuales y luego calcular el […]

Uso de StanfordParser para obtener dependencias escritas a partir de una oración analizada

Usando el StanfordParser de NLTK, puedo analizar una oración como esta: os.environ[‘STANFORD_PARSER’] = ‘C:\jars’ os.environ[‘STANFORD_MODELS’] = ‘C:\jars’ os.environ[‘JAVAHOME’] =’C:\ProgramData\Oracle\Java\javapath’ parser = stanford.StanfordParser(model_path=”C:\jars\englishPCFG.ser.gz”) sentences = parser.parse((“bring me a red ball”,)) for sentence in sentences: sentence El resultado es: Tree(‘ROOT’, [Tree(‘S’, [Tree(‘VP’, [Tree(‘VB’, [‘Bring’]), Tree(‘NP’, [Tree(‘DT’, [‘a’]), Tree(‘NN’, [‘red’])]), Tree(‘NP’, [Tree(‘NN’, [‘ball’])])]), Tree(‘.’, [‘.’])])]) ¿Cómo puedo usar […]

La aplicación WSGI de Flask se bloquea al importar nltk

Seguí las instrucciones aquí para crear una aplicación de flask de un archivo desplegada en apache2 con mod-wsgi en ubuntu. Que todo funciona bien cuando se usa la aplicación original del matraz. Sin embargo, al agregar la importación de nltk a la aplicación de matraz apache cuelga (no 500). Yo uso python 2.7 y nltk […]

Crear un diccionario para cada palabra en un archivo y contar la frecuencia de las palabras que lo siguen

Estoy tratando de resolver un problema difícil y me estoy perdiendo. Esto es lo que se supone que debo hacer: INPUT: file OUTPUT: dictionary Return a dictionary whose keys are all the words in the file (broken by whitespace). The value for each word is a dictionary containing each word that can follow the key […]

NLTK no pudo encontrar el archivo gs

Estoy tratando de usar NLTK, el kit de herramientas de lenguaje natural de stanford. Después de instalar los archivos requeridos, comienzo a ejecutar el código de demostración: http://www.nltk.org/index.html >>> import nltk >>> sentence = “””At eight o’clock on Thursday morning … Arthur didn’t feel very good.””” >>> tokens = nltk.word_tokenize(sentence) >>> tokens [‘At’, ‘eight’, “o’clock”, […]

NLTK otro lenguaje POS tagger

Estoy usando el módulo nltk en Python y estoy tratando de usar esto para etiquetar POS en diferentes idiomas. Hay mucha información sobre cómo entrenar a su propio etiquetador POS en diferentes idiomas. ¿Existe una base de datos de etiquetadores POS NLTK realmente robustos y bien construidos para diferentes idiomas? (Es bastante fácil exportar etiquetadores […]