Articles of nlp

Análisis semántico con NLTK

Estoy tratando de usar NLTK para el análisis semántico de los comandos de navegación hablados, como “ir a San Francisco”, “darme direcciones a 123 Main Street”, etc. Esto se podría hacer con una gramática CFG bastante simple como S -> COMMAND LOCATION COMMAND -> “go to” | “give me directions to” | … LOCATION -> […]

nltk: Cómo prevenir la derivación de nombres propios

Estoy tratando de escribir un progtwig de extracción de palabras clave utilizando los etiquetadores POS de Stanford y NER. Para la extracción de palabras clave, solo me interesan los nombres propios. Aquí está el enfoque básico. Limpia los datos eliminando cualquier cosa menos alfabetos Eliminar las palabras clave Trata cada palabra Determine la etiqueta POS […]

Datos NLTK desactualizados – Python 3.4

Estoy tratando de instalar NLTK para Python 3.4. El módulo NLTK real parece haberse instalado bien. Entonces corri import nltk nltk.download() Y optó por descargar todo. Sin embargo, después de que se hizo, la ventana simplemente dice “fuera de fecha”. Intenté actualizar y descargar, pero permanece “fuera de fecha” como se muestra aquí: Ventana 1 […]

Detectar si el texto no está en inglés

¿Cuál es el método más preciso para detectar si un texto (específicamente los comentarios de Instagram) no es en inglés? Estoy feliz de usar cualquier lenguaje de alto nivel, como Python, PHP, etc. $ sudo pip2 install guess_language >>> from guess_language import guessLanguage >>> guessLanguage(‘la vita e bella’) ‘UNKNOWN’ >>> guessLanguage(‘today is a good day’) […]

¿Hay una manera fácil de generar una lista probable de palabras de una oración sin espacios en python?

Tengo un texto: s=”Imageclassificationmethodscan beroughlydividedinto two broad families of approaches:” Me gustaría analizar esto en sus palabras individuales. Rápidamente miré el hechizo y nltk, pero no vi nada que pareciera útil de inmediato. Si tuviera tiempo para invertir en esto, buscaría escribir un progtwig dynamic con la capacidad de encantar para verificar si una palabra […]

Cálculo de la distancia entre los vectores de palabra / documento de un diccionario nested

Tengo un diccionario nested como tal: myDict = {‘a’: {1:2, 2:163, 3:12, 4:67, 5:84}, ‘about’: {1:27, 2:45, 3:21, 4:10, 5:15}, ‘apple’: {1:0, 2: 5, 3:0, 4:10, 5:0}, ‘anticipate’: {1:1, 2:5, 3:0, 4:8, 5:7}, ‘an’: {1:3, 2:15, 3:1, 4:312, 5:100}} La clave externa es una palabra, las claves internas son identificadores de archivo / documento los […]

Crea formas de palabras usando python

¿Cómo puedo obtener diferentes formas de palabras usando Python? Quiero crear una lista como la siguiente. Work=[‘Work’,’Working’,’Works’] Mi código: raw = nltk.clean_html(html) cleaned = re.sub(r’& ?(ld|rd)quo ?[;\]]’, ‘\”‘, raw) tokens = nltk.wordpunct_tokenize(cleaned) stemmer = PorterStemmer() t = [stemmer.stem(t) if t in Words else t for t in tokens] text = nltk.Text(t) word = words(n) Words […]

El etiquetador POS Python NLTK no se comporta como se espera

Ejecuté la función pos_tag en el texto de abajo, muestra la salida con la batería como ‘RB’. Como batería es sustantivo, debería aparecer como ‘NN’. nltk.pos_tag(nltk.word_tokenize(‘Camera picture quality was fair but speed was an issue and also battery life was not that good’)) Salida: [(‘Camera’, ‘NNP’), (‘picture’, ‘NN’), (‘quality’, ‘NN’), (‘was’, ‘VBD’), (‘fair’, ‘JJ’) , […]

Convertir tags POS de TextBlob en entradas compatibles con Wordnet

Estoy usando Python y nltk + Textblob para un análisis de texto. Es interesante que pueda agregar un punto de venta para wordnet para que su búsqueda de sinónimos sea más específica, pero desafortunadamente, el etiquetado tanto en nltk como en Textblob no es “compatible” con el tipo de entrada que wordnet espera para su […]

entrenar un modelo de lenguaje usando Google Ngrams

Quiero encontrar una probabilidad condicional de una palabra dado su conjunto anterior de palabras. Planeo usar Google N-grams para el mismo. Sin embargo, al ser un recurso tan enorme como es, no creo que sea computacionalmente posible en mi PC. (Para procesar todos los N-gtwigs, para entrenar un modelo de lenguaje). Entonces, ¿hay alguna manera […]