Articles of nltk

contando la frecuencia de n-gram en Python nltk

tengo el siguiente código. Sé que puedo usar la función apply_freq_filter para filtrar colocaciones que son menores que un conteo de frecuencia. Sin embargo, no sé cómo obtener las frecuencias de todas las tuplas n-gram (en mi caso bi-gramo) en un documento, antes de decidir qué frecuencia configurar para el filtrado. Como puede ver, estoy […]

NLTK no encuentra el ejecutable de Java

Estoy usando nltk.tag.stanford de NLTK, que necesita llamar al ejecutable java. Puse JAVAHOME en C: \ Archivos de progtwig \ Java \ jdk1.6.0_25 donde está instalado mi jdk, pero cuando ejecuto el progtwig aparece el error “NLTK was unable to find the java executable! Use the config_java() or set the JAVAHOME variable” Luego dediqué 3 […]

¿Cómo obtengo un conjunto de reglas gtwigticales de Penn Treebank usando python y NLTK?

Soy bastante nuevo en NLTK y Python. He estado creando análisis de oraciones utilizando las gramáticas de los juguetes que figuran en los ejemplos, pero me gustaría saber si es posible usar una gramática aprendida de una parte del Penn Treebank, por ejemplo, en lugar de solo escribir la mía o usar el juguete. gramáticas? […]

Reconocimiento de entidad nombrada para NLTK en Python. Identificando el NE

Necesito clasificar las palabras en sus partes del habla. Como un verbo, un sustantivo, un adverbio, etc. Usé el nltk.word_tokenize() #to identify word in a sentence nltk.pos_tag() #to identify the parts of speech nltk.ne_chunk() #to identify Named entities. El resultado de esto es un árbol. P.ej >>> sentence = “I am Jhon from America” >>> […]

Reconocimiento de entidad con nombre NLTK con datos personalizados

Estoy tratando de extraer entidades con nombre de mi texto usando NLTK. Encuentro que NLTK NER no es muy preciso para mi propósito y también quiero agregar algunas más tags propias. He estado tratando de encontrar una manera de entrenar mi propia NER, pero no puedo encontrar los recursos adecuados. Tengo un par de preguntas […]

Para encontrar sinónimos, definiciones y oraciones de ejemplo usando WordNet.

Necesito tomar un archivo de texto de entrada con una palabra. Luego necesito encontrar los nombres, la definición y los ejemplos del lema de la palabra usando wordnet. He revisado el libro: “Python Text Processing with NLTK 2.0 Cookbook” y también “Natural Language Processing with NLTK” para ayudarme en esta dirección. Aunque he entendido cómo […]

Módulo de Python con acceso a diccionarios de inglés, incluidas definiciones de palabras

Estoy buscando un módulo de python que me ayude a obtener la (s) definición (es) de un diccionario de inglés para una palabra. Por supuesto, está enchant , lo que me ayuda a comprobar si la palabra existe en el idioma inglés, pero no proporciona definiciones de ellos (al menos no veo nada de eso […]

Comprensión de la puntuación de la asignación NLTK para bigrams y trigrams

Fondo: Estoy tratando de comparar pares de palabras para ver qué par es “más probable que ocurra” en el inglés de EE. UU. Que en otro par. Mi plan es / era usar las instalaciones de colocación en NLTK para obtener pares de palabras, siendo el par de puntuación más alto el más probable. Enfoque: […]

Mejorando la extracción de nombres humanos con nltk.

Estoy tratando de extraer nombres humanos de texto. ¿Alguien tiene un método que recomendaría? Esto es lo que intenté (el código está debajo): estoy usando nltk para encontrar todo lo que está marcado como persona y luego generar una lista de todas las partes NNP de esa persona. Estoy saltando personas donde solo hay un […]

Clasificación de documentos en categorías

Tengo aproximadamente 300k documentos almacenados en una base de datos de Postgres que están etiquetados con categorías de temas (hay un total de aproximadamente 150 categorías). Tengo otros 150k documentos que aún no tienen categorías. Estoy tratando de encontrar la mejor manera de categorizarlos programáticamente. He estado explorando NLTK y su clasificador Naive Bayes. Parece […]