Articles of lda

Extraer la matriz de documento-tema del modelo Pyspark LDA

He entrenado con éxito un modelo LDA en chispa, a través de la API de Python: from pyspark.mllib.clustering import LDA model=LDA.train(corpus,k=10) Esto funciona completamente bien, pero ahora necesito el documento – matriz de temas para el modelo LDA, pero por lo que puedo decir, todo lo que puedo obtener es la palabra – tema, usando […]

¿Podemos usar un corpus hecho por nosotros mismos para entrenar para LDA usando gensim?

Tengo que aplicar LDA (Asignación de Dirichlet Latente) para obtener los posibles temas de una base de datos de 20,000 documentos que recopilé. ¿Cómo puedo usar estos documentos en lugar del otro corpus disponible como Brown Corpus o la Wikipedia en inglés como corpus de entrenamiento? Puede consultar esta página.

Implementación simple de Python del modelado colaborativo de temas?

Encontré estos 2 artículos que combinaron el filtrado colaborativo (factorización de matriz) y el modelado de temas (LDA) para recomendar a los usuarios artículos / publicaciones similares basados ​​en los términos del tema de las publicaciones / artículos que los usuarios están interesados. Los documentos (en PDF) son: ” Modelado de temas de colaboración para […]

Gráfico que solo se muestra parcialmente en la salida del cuaderno Jupyter

Estoy tratando de obtener un gráfico de PyLDAvis que se parece a los 2 que se muestran en este enlace, que puede ver de inmediato (Mapa de Distancia Intertopic y los 30 Términos Más Sobresalientes): http://nbviewer.jupyter.org/github/bmabey/hacker_news_topic_modelling/blob/master/HN%20Topic%20Model%20Talk.ipynb Mi código lo muestra, pero solo parcialmente, solo puedo ver 1 grupo a la izquierda y, como 5-6 términos […]

Python Gensim: ¿cómo calcular la similitud de documentos utilizando el modelo LDA?

Tengo un modelo LDA entrenado y quiero calcular la puntuación de similitud entre dos documentos del corpus en el que entrené a mi modelo. Después de estudiar todos los tutoriales y funciones de Gensim, todavía no puedo entenderlo. ¿Alguien puede darme una pista? ¡Gracias!

Error de memoria en python usando una matriz numpy

Estoy recibiendo el siguiente error para este código: model = lda.LDA(n_topics=15, n_iter=50, random_state=1) model.fit(X) topic_word = model.topic_word_ print(“type(topic_word): {}”.format(type(topic_word))) print(“shape: {}”.format(topic_word.shape)) print (“\n”) n = 15 doc_topic=model.doc_topic_ for i in range(15): print(“{} (top topic: {})”.format(titles[i], doc_topic[0][i].argmax())) topic_csharp=np.zeros(shape=[1,n]) np.copyto(topic_csharp,doc_topic[0][i]) for i, topic_dist in enumerate(topic_word): topic_words = np.array(vocab)[np.argsort(topic_dist)][:-(n+1):-1] print(‘*Topic {}\n- {}’.format(i, ‘ ‘.join(topic_words))) error es: Traceback (most […]

¿Debo usar tfidf corpus o solo corpus para inferir documentos usando LDA?

Me pregunto si es el corpus de TFIDF que se va a usar o el corpus que se usará cuando seamos documentos de inferencia utilizando LDA en gensim Aquí hay un ejemplo from gensim import corpora, models import numpy.random numpy.random.seed(10) doc0 = [(0, 1), (1, 1)] doc1 = [(0,1)] doc2 = [(0, 1), (1, 1)] […]

Gensim LdaMulticore no multiprocesamiento?

Cuando ejecuto el modelo LdaMulticore de LdaMulticore en una máquina con 12 núcleos, usando: lda = LdaMulticore(corpus, num_topics=64, workers=10) Me sale un mensaje de registro que dice using serial LDA version on this node Unas líneas más tarde, veo otro mensaje de registro que dice training LDA model using 10 processes Cuando ejecuto top, veo […]

Similitud de coseno y temas de LDA

Quiero calcular la similitud de coseno entre los temas de LDA. De hecho, la función gensim .matutils.cossim puede hacerlo pero no sé qué parámetro (vector) puedo usar para esta función? Aquí hay un complemento de código: import numpy as np import lda from sklearn.feature_extraction.text import CountVectorizer cvectorizer = CountVectorizer(min_df=4, max_features=10000, stop_words=’english’) cvz = cvectorizer.fit_transform(tweet_texts_processed) n_topics […]

¿Cómo generar nubes de palabras a partir de modelos LDA en Python?

Estoy haciendo algunos ejemplos de temas en artículos de periódicos, y he implementado LDA utilizando gensim en Python3. Ahora quiero crear una nube de palabras para cada tema, usando las 20 palabras principales para cada tema. Sé que puedo imprimir las palabras y guardar el modelo LDA, pero ¿hay alguna forma de guardar las palabras […]