Articles of nlp

Detectar si el texto es inglés o no (a granel)

Estoy buscando una forma sencilla de detectar si un breve fragmento de texto, algunas oraciones, es inglés o no. Me parece que este problema es mucho más fácil que tratar de detectar un lenguaje arbitrario. ¿Hay algún software por ahí que pueda hacer esto? Estoy escribiendo en python, y preferiría una biblioteca de python, pero […]

¿Cómo identificar el sujeto de una oración?

¿Se puede usar Python + NLTK para identificar el sujeto de una oración? De lo que he aprendido hasta ahora es que una oración puede ser dividida en una cabeza y sus dependientes. Por ejemplo, “Le disparé a un elefante”. En esta frase, yo y el elefante somos dependientes para disparar. Pero, ¿cómo discernir que […]

NLTK Context Free Grammar Genaration

Estoy trabajando en un analizador no inglés con caracteres Unicode. Para eso, decidí usar NLTK. Pero requiere una gramática libre de contexto predefinida como se muestra a continuación: S -> NP VP VP -> V NP | V NP PP PP -> P NP V -> “saw” | “ate” | “walked” NP -> “John” | […]

¿Qué son los recuentos de ngram y cómo implementar el uso de nltk?

He leído un artículo que utiliza los recuentos de ngram como característica para un clasificador, y me preguntaba qué significa esto exactamente. Texto de ejemplo: “Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam” Puedo crear unigtwigs, bigtwigs, trigtwigs, etc. a partir de este texto, donde tengo que definir en qué “nivel” crear estos […]

¿Dónde puedo encontrar una lista de texto o una biblioteca que contenga una lista de alimentos comunes?

Estoy escribiendo una secuencia de comandos de Python que analiza los correos electrónicos que implica buscar en el texto del correo electrónico cualquier palabra que sea un elemento alimenticio común. Necesito alguna forma de determinar si las palabras son realmente alimentos. He analizado varias API de procesamiento de lenguaje natural (como AlchemyAPI y NLTK 2.0) […]

nltk Stanford NERTagger: NoClassDefFoundError: org / slf4j / LoggerFactory (en Windows)

NOTA: Estoy usando Python 2.7 como parte de la distribución de Anaconda. Espero que esto no sea un problema para nltk 3.1. Estoy tratando de usar nltk para NER como import nltk from nltk.tag.stanford import StanfordNERTagger #st = StanfordNERTagger(‘stanford-ner/all.3class.distsim.crf.ser.gz’, ‘stanford-ner/stanford-ner.jar’) st = StanfordNERTagger(‘english.all.3class.distsim.crf.ser.gz’) print st.tag(str) pero entiendo Exception in thread “main” java.lang.NoClassDefFoundError: org/slf4j/LoggerFactory at edu.stanford.nlp.io.IOUtils.(IOUtils.java:41) […]

¿Cosinidad de similitud de vectores de diferentes longitudes?

Estoy tratando de usar TF-IDF para clasificar los documentos en categorías. He calculado tf_idf para algunos documentos, pero ahora, cuando bash calcular la similitud de coseno entre dos de estos documentos, obtengo un rastreo que dice: #len(u)==201, len(v)==246 cosine_distance(u, v) ValueError: objects are not aligned #this works though: cosine_distance(u[:200], v[:200]) >> 0.52230249969265641 ¿Está cortando el […]

¿Cómo se calcula la puntuación de polaridad de “compuesto” de Vader en Python NLTK?

Estoy usando Vader SentimentAnalyzer para obtener las puntuaciones de polaridad. Utilicé las puntuaciones de probabilidad para positivo / negativo / neutral antes, pero me di cuenta de que la puntuación “compuesta”, que va de -1 (la mayoría negativa) a 1 (la mayoría pos) proporcionaría una medida única de polaridad. Me pregunto cómo se calculó la […]

NLTK – Frecuencia de recuento de Bigram

Esta es una pregunta para principiantes de Python y NLTK. Quiero encontrar la frecuencia de los bigtwigs que ocurren más de 10 veces juntos y tienen el PMI más alto. Para esto, estoy trabajando con este código. def get_list_phrases(text): tweet_phrases = [] for tweet in text: tweet_words = tweet.split() tweet_phrases.extend(tweet_words) bigram_measures = nltk.collocations.BigramAssocMeasures() finder = […]

Python: ¿Cómo intuir la palabra de un texto abreviado usando PNL?

Recientemente estuve trabajando en un conjunto de datos que usaba abreviaturas para varias palabras. Por ejemplo, wtrbtl = water bottle bwlingbl = bowling ball bsktball = basketball No parecía haber ninguna consistencia en términos de la convención utilizada, es decir, a veces usaban vocales a veces no. Estoy tratando de construir un objeto de mapeo […]