Articles of nltk

Código para contar el número de oraciones, palabras y caracteres en un archivo de entrada

He escrito el siguiente código para contar el número de oraciones, palabras y caracteres en el archivo de entrada sample.txt, que contiene un párrafo de texto. Funciona bien al dar el número de oraciones y palabras, pero no da el número preciso y correcto de caracteres (sin espacios en blanco ni signos de puntuación) lines,blanklines,sentences,words=0,0,0,0 […]

¿Cómo puedo relacionar palabras independientemente del tiempo o la forma?

Actualmente estoy trabajando en una secuencia de comandos que se ejecuta a través de un documento, saca todas las palabras clave y luego intenta hacer coincidir estas palabras clave con las que se encuentran en otros documentos. Hay algunos detalles que complican esto, pero no son muy pertinentes para mi pregunta. Básicamente, me gustaría poder […]

Python no pudo `importar nltk` en mi script pero funciona en el intérprete

Descubrí el motivo, nombré el archivo de script original nltk.py, así que Python intentó importar word_tokenize desde el archivo de script orz. Lo siento por este tonto error. Estoy tratando de usar nltk en Python en Windows. He instalado los datos nltk y nltk. Sin embargo, cuando bash ejecutar python -u ‘filename.py’ en la línea […]

tokenizador de expresiones regulares nltk

Intenté implementar un tokenizador de expresiones regulares con nltk en python, pero el resultado es este: >>> import nltk >>> text = ‘That USA poster-print costs $12.40…’ >>> pattern = r”'(?x) # set flag to allow verbose regexps … ([AZ]\.)+ # abbreviations, eg USA … | \w+(-\w+)* # words with optional internal hyphens … | […]

comparando sinónimos NLTK

No puedo encontrar un problema extraño, supongo que me ayudarás. for p in wn.synsets(‘change’): print(p) Consiguiendo: Synset(‘change.n.01’) Synset(‘change.n.02’) Synset(‘change.n.03’) Synset(‘change.n.04’) Synset(‘change.n.05’) Synset(‘change.n.06’) Synset(‘change.n.07’) Synset(‘change.n.08’) Synset(‘change.n.09’) Synset(‘variety.n.06’) Synset(‘change.v.01’) Synset(‘change.v.02’) Synset(‘change.v.03’) Synset(‘switch.v.03’) Synset(‘change.v.05’) Synset(‘change.v.06’) Synset(‘exchange.v.01’) Synset(‘transfer.v.06’) Synset(‘deepen.v.04’) Synset(‘change.v.10’) Por ejemplo tengo una cadena a: a = ‘transfer’ Me gustaría poder identificar todo tipo de sinónimos de la […]

¿Cómo imprimo solo la palabra en sí en un sincronizador de WordNet usando Python NLTK?

¿Hay alguna forma en Python 2.7 utilizando NLTK para obtener la palabra y no el formato adicional que incluye “synset” y los paréntesis y el “n.01” etc.? Por ejemplo si lo hago wn.synsets(‘dog’) Mis resultados se ven como: [Synset(‘dog.n.01’), Synset(‘frump.n.01’), Synset(‘dog.n.03’), Synset(‘cad.n.01’), Synset(‘frank.n.02’), Synset(‘pawl.n.01’), Synset(‘andiron.n.01’), Synset(‘chase.v.01’)] ¿Cómo puedo obtener una lista como esta? dog frump […]

¿Cómo navegar correctamente un árbol de análisis NLTK?

NLTK me está volviendo loco. ¿Cómo navego correctamente a través de un árbol NLTK (o ParentedTree)? Me gustaría identificar una hoja determinada con el nodo principal “VBZ”, luego me gustaría moverme desde allí más arriba en el árbol y hacia la izquierda para identificar el nodo NP. ¿Cómo hago esto? La clase de árbol NLTK […]

¿Cómo generar trozos NLTK para archivar?

Tengo esta secuencia de comandos de Python en la que estoy utilizando la biblioteca nltk para analizar, tokenizar, etiquetar y fragmentar, algunos digamos texto aleatorio de la web. Necesito formatear y escribir en un archivo la salida de chunked1 , chunked2 , chunked3 . Estos tienen class ‘nltk.tree.Tree’ tipo class ‘nltk.tree.Tree’ Más específicamente, necesito escribir […]

NLTK: Cómo crear un corpus desde un archivo csv

Tengo un archivo csv como col1 col2 col3 some text someID some value some text someID some value en cada fila, col1 corresponde al texto de un documento completo. Me gustaría crear un corpus a partir de este csv. mi objective es utilizar TfidfVectorizer de sklearn para calcular la similitud de documentos y la extracción […]

Identificando fechas en cadenas usando NLTK

Estoy tratando de identificar si una fecha ocurre en una cadena arbitraria. Aquí está mi código: import nltk txts = [‘Submitted on 1st January’, ‘Today is 1/3/15’] def chunk(t): w_tokens = nltk.word_tokenize(t) pt = nltk.pos_tag(w_tokens) ne = nltk.ne_chunk(pt) print ne for t in txts: print t chunk(t) La salida que estoy obteniendo es Submitted on […]