Articles of nltk

¿Cómo identificar el sujeto de una oración?

¿Se puede usar Python + NLTK para identificar el sujeto de una oración? De lo que he aprendido hasta ahora es que una oración puede ser dividida en una cabeza y sus dependientes. Por ejemplo, “Le disparé a un elefante”. En esta frase, yo y el elefante somos dependientes para disparar. Pero, ¿cómo discernir que […]

Error de búsqueda NLTK

Mientras ejecutaba un script de Python usando NLTK obtuve esto: Traceback (most recent call last): File “cpicklesave.py”, line 56, in pos = nltk.pos_tag(words) File “/usr/lib/python2.7/site-packages/nltk/tag/__init__.py”, line 110, in pos_tag tagger = PerceptronTagger() File “/usr/lib/python2.7/site-packages/nltk/tag/perceptron.py”, line 140, in __init__ AP_MODEL_LOC = str(find(‘taggers/averaged_perceptron_tagger/’+PICKLE)) File “/usr/lib/python2.7/site-packages/nltk/data.py”, line 641, in find raise LookupError(resource_not_found) LookupError: ********************************************************************** Resource u’taggers/averaged_perceptron_tagger/averaged_perceptro n_tagger.pickle’ not […]

NLTK Context Free Grammar Genaration

Estoy trabajando en un analizador no inglés con caracteres Unicode. Para eso, decidí usar NLTK. Pero requiere una gramática libre de contexto predefinida como se muestra a continuación: S -> NP VP VP -> V NP | V NP PP PP -> P NP V -> “saw” | “ate” | “walked” NP -> “John” | […]

n-grams con clasificador Naive Bayes

Soy nuevo en Python y necesito ayuda! Estaba practicando con la clasificación de texto Python NLTK. Aquí está el ejemplo de código que estoy practicando en http://www.laurentluce.com/posts/twitter-sentiment-analysis-using-python-and-nltk/ He probado este from nltk import bigrams from nltk.probability import ELEProbDist, FreqDist from nltk import NaiveBayesClassifier from collections import defaultdict train_samples = {} with file (‘positive.txt’, ‘rt’) as […]

¿Qué son los recuentos de ngram y cómo implementar el uso de nltk?

He leído un artículo que utiliza los recuentos de ngram como característica para un clasificador, y me preguntaba qué significa esto exactamente. Texto de ejemplo: “Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam” Puedo crear unigtwigs, bigtwigs, trigtwigs, etc. a partir de este texto, donde tengo que definir en qué “nivel” crear estos […]

¿Dónde puedo encontrar una lista de texto o una biblioteca que contenga una lista de alimentos comunes?

Estoy escribiendo una secuencia de comandos de Python que analiza los correos electrónicos que implica buscar en el texto del correo electrónico cualquier palabra que sea un elemento alimenticio común. Necesito alguna forma de determinar si las palabras son realmente alimentos. He analizado varias API de procesamiento de lenguaje natural (como AlchemyAPI y NLTK 2.0) […]

nltk Stanford NERTagger: NoClassDefFoundError: org / slf4j / LoggerFactory (en Windows)

NOTA: Estoy usando Python 2.7 como parte de la distribución de Anaconda. Espero que esto no sea un problema para nltk 3.1. Estoy tratando de usar nltk para NER como import nltk from nltk.tag.stanford import StanfordNERTagger #st = StanfordNERTagger(‘stanford-ner/all.3class.distsim.crf.ser.gz’, ‘stanford-ner/stanford-ner.jar’) st = StanfordNERTagger(‘english.all.3class.distsim.crf.ser.gz’) print st.tag(str) pero entiendo Exception in thread “main” java.lang.NoClassDefFoundError: org/slf4j/LoggerFactory at edu.stanford.nlp.io.IOUtils.(IOUtils.java:41) […]

¿Cosinidad de similitud de vectores de diferentes longitudes?

Estoy tratando de usar TF-IDF para clasificar los documentos en categorías. He calculado tf_idf para algunos documentos, pero ahora, cuando bash calcular la similitud de coseno entre dos de estos documentos, obtengo un rastreo que dice: #len(u)==201, len(v)==246 cosine_distance(u, v) ValueError: objects are not aligned #this works though: cosine_distance(u[:200], v[:200]) >> 0.52230249969265641 ¿Está cortando el […]

¿Existe alguna alternativa para el módulo ‘nltk.model.NGramModel’ que se eliminó ahora?

He estado tratando de encontrar una alternativa por dos días seguidos, y no pude encontrar nada relevante. Básicamente, estoy tratando de obtener una puntuación probabilística de una oración sintetizada (sintetizada al reemplazar algunas palabras de una oración original seleccionada de los corpus). Intenté Colocaciones, pero las puntuaciones que estoy obteniendo no son muy útiles. Así […]

¿Cómo tokenizar una palabra malayalam?

ഇതുഒരുസ്ടലംമാണ് itu oru stalam anu Esta es una cadena Unicode que significa que este es un lugar import nltk nltk.wordpunct_tokenize(‘ഇതുഒരുസ്ഥാലമാണ് ‘.decode(‘utf8’)) no esta trabajando para mi nltk.word_tokenize(‘ഇതുഒരുസ്ഥാലമാണ് ‘.decode(‘utf8′)) Tampoco está funcionando otros ejemplos. “കണ്ടില്ല ” = കണ്ടു +ഇല്ല, “വലിയൊരു” = വലിയ + ഒരു Dividir a la derecha: ഇത് ഒരു സ്ഥാലം ആണ് salida: [u’\u0d07\u0d24\u0d4d\u0d12\u0d30\u0d41\u0d38\u0d4d\u0d25\u0d32\u0d02\u0d06\u0d23\u0d4d’] Solo necesito […]