Articles of nlp

SnowballStemmer para la lista de palabras rusas

Sé cómo realizar SnowballStemmer en una sola palabra (en mi caso, en ruso). Haciendo las siguientes cosas: from nltk.stem.snowball import SnowballStemmer stemmer = SnowballStemmer(“russian”) stemmer.stem(“Василий”) ‘Васил’ ¿Cómo puedo hacer lo siguiente si tengo una lista de palabras como [‘Василий’, ‘Геннадий’, ‘Виталий’]? Mi aproximación usando el bucle parece no estar funcionando 🙁 l=[stemmer.stem(word) for word in […]

Stanford Universal Dependencies en Python NLTK

¿Hay alguna manera de obtener las dependencias universales usando python, o nltk? Solo puedo producir el árbol de análisis. Ejemplo: Frase de entrada: My dog also likes eating sausage. Salida: Universal dependencies nmod:poss(dog-2, My-1) nsubj(likes-4, dog-2) advmod(likes-4, also-3) root(ROOT-0, likes-4) xcomp(likes-4, eating-5) dobj(eating-5, sausage-6)

Configuración de NLTK con Stanford NLP (tanto StanfordNERTagger como StanfordPOSTagger) para español

La documentación de NLTK es bastante pobre en esta integración. Los pasos que seguí fueron: Descargue http://nlp.stanford.edu/software/stanford-postagger-full-2015-04-20.zip en /home/me/stanford Descargue http://nlp.stanford.edu/software/stanford-spanish-corenlp-2015-01-08-models.jar en /home/me/stanford Luego en una consola ipython : En [11]: importar nltk In [12]: nltk.__version__ Out[12]: ‘3.1’ In [13]: from nltk.tag import StanfordNERTagger Entonces st = StanfordNERTagger(‘/home/me/stanford/stanford-postagger-full-2015-04-20.zip’, ‘/home/me/stanford/stanford-spanish-corenlp-2015-01-08-models.jar’) Pero cuando intenté ejecutarlo: st.tag(‘Adolfo se […]

¿Cómo extraer caracteres ngram de las oraciones? – python

La siguiente función word2ngrams extrae 3grams de caracteres de una palabra: >>> x = ‘foobar’ >>> n = 3 >>> [x[i:i+n] for i in range(len(x)-n+1)] [‘foo’, ‘oob’, ‘oba’, ‘bar’] Esta publicación muestra la extracción de ngrams de caracteres para una sola palabra, Implementación rápida de n-gtwigs de caracteres utilizando python . Pero ¿qué pasa si […]

Rápido NLTK analizar en el árbol de syntax

Estoy tratando de analizar varios cientos de oraciones en sus árboles de syntax y necesito hacerlo rápido, el problema es que si uso NLTK entonces necesito definir una gramática, y no puedo saber que solo sé que será inglés. Intenté usar este analizador estadístico, y funciona muy bien para mis propósitos, sin embargo, la velocidad […]

Python: la solicitud de traducción de Goslate devuelve “503: Servicio no disponible”

Hace unos meses, usé el paquete de goslate de Python para traducir un montón de texto en francés al inglés. Sin embargo, cuando intenté hacerlo esta mañana, el servicio devolvió un error: import goslate gs = goslate.Goslate() print gs.translate(‘hello world’, ‘de’) Traceback (most recent call last): File “”, line 1, in File “c:\Python27\lib\site-packages\goslate.py”, line 389, […]

¿Cómo enfoco esta tarea de clasificación de entidad nombrada?

Estoy haciendo una pregunta relacionada aquí, pero esta pregunta es más general. Tomé un gran cuerpo y anoté algunas palabras con sus entidades nombradas. En mi caso, son de dominio específico y los llamo: Entidad, Acción, Incidente. Quiero usar estos como una semilla para extraer más entidades nombradas. Por ejemplo, a continuación hay una oración: […]

Clasificación de texto con SciKit-learn y un gran conjunto de datos

En primer lugar empecé con python ayer. Estoy tratando de hacer una clasificación de texto con SciKit y un gran conjunto de datos (250.000 tweets). Para el algoritmo, cada tweet se representará como un vector de 4000 x 1, lo que significa que la entrada es de 250.000 filas y 4000 columnas. Cuando trato de […]

Identificar tiempos verbales en python

¿Cómo puedo usar Python + NLTK para identificar si una oración se refiere al pasado / presente / futuro? ¿Puedo hacer esto solo usando tags POS? Esto parece un poco impreciso, me parece que debo considerar el contexto de la oración y no solo las palabras. ¿Alguna sugerencia para otra biblioteca que pueda hacer eso?

concordancia para una frase usando NLTK en Python

¿Es posible obtener concordancia para una frase en NLTK? import nltk from nltk.corpus import PlaintextCorpusReader corpus_loc = “c://temp//text//” files = “.*\.txt” read_corpus = PlaintextCorpusReader(corpus_loc, files) corpus = nltk.Text(read_corpus.words()) test = nltk.TextCollection(corpus_loc) corpus.concordance(“claim”) por ejemplo las devoluciones anteriores on okay okay okay i can give you the claim number and my information and decide on the […]