Articles of nlp

Combinando un Tokenizer en una gramática y un analizador con NLTK

Me estoy abriendo camino a través del libro NLTK y parece que no puedo hacer algo que parezca ser un primer paso natural para construir una gramática decente. Mi objective es construir una gramática para un corpus de texto en particular. (Pregunta inicial: ¿Debo intentar comenzar una gramática desde cero o debo comenzar con una […]

Reconocimiento de entidad nombrada para NLTK en Python. Identificando el NE

Necesito clasificar las palabras en sus partes del habla. Como un verbo, un sustantivo, un adverbio, etc. Usé el nltk.word_tokenize() #to identify word in a sentence nltk.pos_tag() #to identify the parts of speech nltk.ne_chunk() #to identify Named entities. El resultado de esto es un árbol. P.ej >>> sentence = “I am Jhon from America” >>> […]

Reconocimiento de entidad con nombre NLTK con datos personalizados

Estoy tratando de extraer entidades con nombre de mi texto usando NLTK. Encuentro que NLTK NER no es muy preciso para mi propósito y también quiero agregar algunas más tags propias. He estado tratando de encontrar una manera de entrenar mi propia NER, pero no puedo encontrar los recursos adecuados. Tengo un par de preguntas […]

Python Arabic PNL

Estoy en el proceso de evaluar las capacidades de NLTK en el procesamiento de texto en árabe en una investigación para analizar y extraer sentimientos. La pregunta es como sigue: ¿El NTLK es capaz de manejar y permite el análisis de texto en árabe? ¿Python es capaz de manipular \ tokenizar texto en árabe? ¿Podré […]

Módulo de Python con acceso a diccionarios de inglés, incluidas definiciones de palabras

Estoy buscando un módulo de python que me ayude a obtener la (s) definición (es) de un diccionario de inglés para una palabra. Por supuesto, está enchant , lo que me ayuda a comprobar si la palabra existe en el idioma inglés, pero no proporciona definiciones de ellos (al menos no veo nada de eso […]

Comprensión de la puntuación de la asignación NLTK para bigrams y trigrams

Fondo: Estoy tratando de comparar pares de palabras para ver qué par es “más probable que ocurra” en el inglés de EE. UU. Que en otro par. Mi plan es / era usar las instalaciones de colocación en NLTK para obtener pares de palabras, siendo el par de puntuación más alto el más probable. Enfoque: […]

Deshabilitar la eliminación de puntuación de Gensim, etc. al analizar un corpus wiki

Quiero entrenar un modelo word2vec en la wikipedia en inglés usando python con gensim. Seguí de cerca https://groups.google.com/forum/#!topic/gensim/MJWrDw_IvXw para eso. Funciona para mí, pero lo que no me gusta del modelo resultante de word2vec es que las entidades con nombre se dividen, lo que hace que el modelo sea inutilizable para mi aplicación específica. El […]

Python Gensim: ¿cómo calcular la similitud de documentos utilizando el modelo LDA?

Tengo un modelo LDA entrenado y quiero calcular la puntuación de similitud entre dos documentos del corpus en el que entrené a mi modelo. Después de estudiar todos los tutoriales y funciones de Gensim, todavía no puedo entenderlo. ¿Alguien puede darme una pista? ¡Gracias!

Clasificación de documentos en categorías

Tengo aproximadamente 300k documentos almacenados en una base de datos de Postgres que están etiquetados con categorías de temas (hay un total de aproximadamente 150 categorías). Tengo otros 150k documentos que aún no tienen categorías. Estoy tratando de encontrar la mejor manera de categorizarlos programáticamente. He estado explorando NLTK y su clasificador Naive Bayes. Parece […]

NLTK palabras lematizantes

Estoy tratando de hacer lematización en palabras con NLTK . Lo que puedo encontrar ahora es que puedo usar el paquete de stem para obtener algunos resultados como transformar “carros” en “carro” y “mujeres” en “mujer”, sin embargo, no puedo hacer lematización en algunas palabras con afijos como “reconocimiento”. Cuando se usa WordNetLemmatizer() en “acuse […]