Articles of nltk

¿Cómo enfoco esta tarea de clasificación de entidad nombrada?

Estoy haciendo una pregunta relacionada aquí, pero esta pregunta es más general. Tomé un gran cuerpo y anoté algunas palabras con sus entidades nombradas. En mi caso, son de dominio específico y los llamo: Entidad, Acción, Incidente. Quiero usar estos como una semilla para extraer más entidades nombradas. Por ejemplo, a continuación hay una oración: […]

Término dividido por el hashtag de múltiples palabras

Estoy tratando de dividir un término que contiene un hashtag de múltiples palabras como “# I-am-great” o “# awesome-dayofmylife ‘ entonces la salida que estoy buscando es: I am great awesome day of my life Todo lo que pude lograr es: >>> import re >>> name = “big #awesome-dayofmylife because #iamgreat” >>> name = re.sub(r’#([^\s]+)’, […]

Identificar tiempos verbales en python

¿Cómo puedo usar Python + NLTK para identificar si una oración se refiere al pasado / presente / futuro? ¿Puedo hacer esto solo usando tags POS? Esto parece un poco impreciso, me parece que debo considerar el contexto de la oración y no solo las palabras. ¿Alguna sugerencia para otra biblioteca que pueda hacer eso?

Cómo extraer sustantivos adjetivos de una oración

Deseo extraer pares sustantivo-adjetivo de esta sentence . Entonces, básicamente quiero algo como: (Mark,sincere) (John,sincere) . from nltk import word_tokenize, pos_tag, ne_chunk sentence = “Mark and John are sincere employees at Google.” print ne_chunk(pos_tag(word_tokenize(sentence)))

concordancia para una frase usando NLTK en Python

¿Es posible obtener concordancia para una frase en NLTK? import nltk from nltk.corpus import PlaintextCorpusReader corpus_loc = “c://temp//text//” files = “.*\.txt” read_corpus = PlaintextCorpusReader(corpus_loc, files) corpus = nltk.Text(read_corpus.words()) test = nltk.TextCollection(corpus_loc) corpus.concordance(“claim”) por ejemplo las devoluciones anteriores on okay okay okay i can give you the claim number and my information and decide on the […]

¿Usando WordNet para determinar la similitud semántica entre dos textos?

¿Cómo puede determinar la similitud semántica entre dos textos en python usando WordNet? El preprocesamiento obvio sería eliminar las palabras clave y la derivación, pero entonces, ¿qué? La única forma en que puedo pensar sería calcular la distancia de ruta de WordNet entre cada palabra en los dos textos. Esto es estándar para los unigtwigs. […]

Gramáticas libres de contexto NLTK

Me pregunto cómo agregaría una gramática opcional en la regla >>> import nltk >>> nltk.app.rdparser() Por ejemplo, la forma normal de agregar una gramática opcional es ponerla entre paréntesis: NP -> NP (PP) Pero en el progtwig ¿cómo lo harías? los paréntesis no funcionan. S Þ NP VP NP Þ NP PP | Det N […]

Python nltk.sent_tokenize error El codec ASCII no puede decodificar

Pude leer con éxito el texto en una variable, pero al intentar crear un token de los textos, obtengo este extraño error: sentences=nltk.sent_tokenize(sample) UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0xe2 in position 11: ordinal not in range(128) Sé que la causa del error es una cadena / carácter especial que el tokenizador no puede leer […]

NLTK convierte oraciones tokenizadas a formato de sincronización

Estoy buscando obtener la similitud entre una sola palabra y cada palabra en una oración usando NLTK. NLTK puede obtener la similitud entre dos palabras específicas como se muestra a continuación. Este método requiere que se proporcione una referencia específica a la palabra, en este caso es ‘dog.n.01’ donde dog es un sustantivo y queremos […]

El objeto ‘PlaintextCorpusReader’ no tiene atributos ‘archivos’

Estoy siguiendo un tutorial de NLTK y obtuve este error en la consola interactiva de Python mientras el libro muestra otro resultado. ¿Algúna idea de cómo arreglar esto? >>> import nltk >>> nltk.corpus.gutenberg.files() Traceback (most recent call last): File “”, line 1, in AttributeError: ‘PlaintextCorpusReader’ object has no attribute ‘files’