Articles of nlp

Identificar tiempos verbales en python

¿Cómo puedo usar Python + NLTK para identificar si una oración se refiere al pasado / presente / futuro? ¿Puedo hacer esto solo usando tags POS? Esto parece un poco impreciso, me parece que debo considerar el contexto de la oración y no solo las palabras. ¿Alguna sugerencia para otra biblioteca que pueda hacer eso?

concordancia para una frase usando NLTK en Python

¿Es posible obtener concordancia para una frase en NLTK? import nltk from nltk.corpus import PlaintextCorpusReader corpus_loc = “c://temp//text//” files = “.*\.txt” read_corpus = PlaintextCorpusReader(corpus_loc, files) corpus = nltk.Text(read_corpus.words()) test = nltk.TextCollection(corpus_loc) corpus.concordance(“claim”) por ejemplo las devoluciones anteriores on okay okay okay i can give you the claim number and my information and decide on the […]

¿Usando WordNet para determinar la similitud semántica entre dos textos?

¿Cómo puede determinar la similitud semántica entre dos textos en python usando WordNet? El preprocesamiento obvio sería eliminar las palabras clave y la derivación, pero entonces, ¿qué? La única forma en que puedo pensar sería calcular la distancia de ruta de WordNet entre cada palabra en los dos textos. Esto es estándar para los unigtwigs. […]

Gramáticas libres de contexto NLTK

Me pregunto cómo agregaría una gramática opcional en la regla >>> import nltk >>> nltk.app.rdparser() Por ejemplo, la forma normal de agregar una gramática opcional es ponerla entre paréntesis: NP -> NP (PP) Pero en el progtwig ¿cómo lo harías? los paréntesis no funcionan. S Þ NP VP NP Þ NP PP | Det N […]

El objeto ‘PlaintextCorpusReader’ no tiene atributos ‘archivos’

Estoy siguiendo un tutorial de NLTK y obtuve este error en la consola interactiva de Python mientras el libro muestra otro resultado. ¿Algúna idea de cómo arreglar esto? >>> import nltk >>> nltk.corpus.gutenberg.files() Traceback (most recent call last): File “”, line 1, in AttributeError: ‘PlaintextCorpusReader’ object has no attribute ‘files’

Análisis de nombres de n-gtwigs en idiomas distintos del inglés (CJK, etc.)

Estoy trabajando en la eliminación de una base de datos de personas. Para una primera pasada, estoy siguiendo un proceso básico de 2 pasos para evitar una operación O (n ^ 2) en toda la base de datos, como se describe en la literatura . Primero, “locking”: repito la iteración en todo el conjunto de […]

¿Cómo obtener el texto de wikipedia corpus con puntuación utilizando gensim wikicorpus?

Estoy tratando de obtener el texto con su puntuación, ya que es importante tener en cuenta esto último en mi modelo doc2vec. Sin embargo, el wikicorpus solo recupera el texto. Después de buscar en la web encontré estas páginas: Página de la sección de temas de Gensim Github. Fue una pregunta de alguien donde la […]

¿Cómo etiquetar automáticamente un grupo de palabras usando semántica?

El contexto es: ya tengo grupos de palabras (frases en realidad) como resultado de kmeans aplicados a consultas de búsqueda en Internet y uso de URL comunes en los resultados del motor de búsqueda como una distancia (co-ocurrencia de URL en lugar de palabras si simplifico mucho ). Me gustaría etiquetar automáticamente los grupos con […]

Python textblob y clasificación de texto

Estoy intentando construir un modelo de clasificación de texto con python y textblob , el script se ejecuta en mi servidor y en el futuro la idea es que los usuarios puedan enviar su texto y que se clasifique. Estoy cargando el conjunto de entrenamiento de CSV: # -*- coding: utf-8 -*- import sys import […]

Fragmento de código NLTK de Python para entrenar a un clasificador (bayes ingenuos) usando la función de frecuencia

Me preguntaba si alguien podría ayudarme a través de un fragmento de código que demuestre cómo entrenar al clasificador Naive Bayes utilizando un método de frecuencia de características en lugar de presencia de características. Supongo que a continuación, como se muestra en el Capítulo 6, el texto del enlace se refiere a la creación de […]