Articles of nlp

comparando sinónimos NLTK

No puedo encontrar un problema extraño, supongo que me ayudarás. for p in wn.synsets(‘change’): print(p) Consiguiendo: Synset(‘change.n.01’) Synset(‘change.n.02’) Synset(‘change.n.03’) Synset(‘change.n.04’) Synset(‘change.n.05’) Synset(‘change.n.06’) Synset(‘change.n.07’) Synset(‘change.n.08’) Synset(‘change.n.09’) Synset(‘variety.n.06’) Synset(‘change.v.01’) Synset(‘change.v.02’) Synset(‘change.v.03’) Synset(‘switch.v.03’) Synset(‘change.v.05’) Synset(‘change.v.06’) Synset(‘exchange.v.01’) Synset(‘transfer.v.06’) Synset(‘deepen.v.04’) Synset(‘change.v.10’) Por ejemplo tengo una cadena a: a = ‘transfer’ Me gustaría poder identificar todo tipo de sinónimos de la […]

¿Cómo navegar correctamente un árbol de análisis NLTK?

NLTK me está volviendo loco. ¿Cómo navego correctamente a través de un árbol NLTK (o ParentedTree)? Me gustaría identificar una hoja determinada con el nodo principal “VBZ”, luego me gustaría moverme desde allí más arriba en el árbol y hacia la izquierda para identificar el nodo NP. ¿Cómo hago esto? La clase de árbol NLTK […]

¿Cómo generar trozos NLTK para archivar?

Tengo esta secuencia de comandos de Python en la que estoy utilizando la biblioteca nltk para analizar, tokenizar, etiquetar y fragmentar, algunos digamos texto aleatorio de la web. Necesito formatear y escribir en un archivo la salida de chunked1 , chunked2 , chunked3 . Estos tienen class ‘nltk.tree.Tree’ tipo class ‘nltk.tree.Tree’ Más específicamente, necesito escribir […]

NLTK: Cómo crear un corpus desde un archivo csv

Tengo un archivo csv como col1 col2 col3 some text someID some value some text someID some value en cada fila, col1 corresponde al texto de un documento completo. Me gustaría crear un corpus a partir de este csv. mi objective es utilizar TfidfVectorizer de sklearn para calcular la similitud de documentos y la extracción […]

¿NLTK tiene implementado TF-IDF?

Hay implementaciones de TF-IDF en scikit-learn y gensim . Existen implementaciones simples Implementación simple de N-Gram, tf-idf y la similitud de coseno en Python Para evitar reinventar la rueda, ¿Realmente no hay TF-IDF en NLTK? ¿Existen subpaquetes que podamos manipular para implementar TF-IDF en NLTK? Si hay como? En este blogpost, dice que NLTK no […]

Similitud de coseno y temas de LDA

Quiero calcular la similitud de coseno entre los temas de LDA. De hecho, la función gensim .matutils.cossim puede hacerlo pero no sé qué parámetro (vector) puedo usar para esta función? Aquí hay un complemento de código: import numpy as np import lda from sklearn.feature_extraction.text import CountVectorizer cvectorizer = CountVectorizer(min_df=4, max_features=10000, stop_words=’english’) cvz = cvectorizer.fit_transform(tweet_texts_processed) n_topics […]

boolean_mask o producto de puntos dispersos en tensorflow

tl; dr, ¿cuál es la forma más eficiente de elegir dinámicamente algunas entradas de un tensor? Estoy tratando de implementar GCN sintáctica en Tensorflow. Básicamente, necesito tener una matriz de ponderación diferente para cada etiqueta (ignoremos los sesgos para esta pregunta) y elegir en cada ejecución las entradas relevantes a usar, esas serían elegidas por […]

Algoritmos de relación semántica – python

Quiero encontrar una relación entre dos synsets y encontré muchos algoritmos como resnik, lin, wu palmer, path algorithm, leacock chodorow, etc. ¿Alguien puede decirme cuál es el más eficiente entre estos algoritmos?

¿Hay alguna manera de convertir los conjuntos de funciones nltk en una matriz scipy.sparse?

Estoy tratando de usar scikit.learn que necesita matrices numpy / scipy para la entrada. El conjunto de características generado en nltk consiste en frecuencias de unigramo y bigtwig. Podría hacerlo manualmente, pero eso será un gran esfuerzo. Así que me pregunto si hay una solución que he pasado por alto.

recuento real de palabras en NLTK

El libro NLTK tiene un par de ejemplos de conteos de palabras, pero en realidad no son conteos de palabras sino conteos de token. Por ejemplo, el Capítulo 1, Vocabulario de conteo dice que lo siguiente da un recuento de palabras: text = nltk.Text(tokens) len(text) Sin embargo, no es así, da un recuento de palabras […]