Articles of gensim

Gensim LdaMulticore no multiprocesamiento?

Cuando ejecuto el modelo LdaMulticore de LdaMulticore en una máquina con 12 núcleos, usando: lda = LdaMulticore(corpus, num_topics=64, workers=10) Me sale un mensaje de registro que dice using serial LDA version on this node Unas líneas más tarde, veo otro mensaje de registro que dice training LDA model using 10 processes Cuando ejecuto top, veo […]

Similitud de coseno y temas de LDA

Quiero calcular la similitud de coseno entre los temas de LDA. De hecho, la función gensim .matutils.cossim puede hacerlo pero no sé qué parámetro (vector) puedo usar para esta función? Aquí hay un complemento de código: import numpy as np import lda from sklearn.feature_extraction.text import CountVectorizer cvectorizer = CountVectorizer(min_df=4, max_features=10000, stop_words=’english’) cvz = cvectorizer.fit_transform(tweet_texts_processed) n_topics […]

Entendiendo la salida de Doc2Vec del paquete Gensim

Tengo algunas oraciones de ejemplo que deseo ejecutar a través de un modelo Doc2Vec. Mi objective final es una matriz de tamaño (num_sentences, num_features). Estoy usando el paquete Gensim. from gensim.models.doc2vec import TaggedDocument from gensim.models import Doc2Vec # warning: long sample of data. It’s just 40 sentences really though. labeled_sents = [TaggedDocument(words=[‘u0644’, ‘u0646’, ‘u062f’, ‘u0646’, […]

PyTorch / Gensim – Cómo cargar incrustaciones de palabras pre-entrenadas

Quiero cargar un word2vec pre-entrenado incrustado con gensim en una capa de incrustación PyTorch. Entonces, mi pregunta es, ¿cómo obtengo los pesos de incrustación cargados por gensim en la capa de incrustación de PyTorch? ¡Gracias por adelantado!

Cómo extraer frases de corpus usando gensim

Para preprocesar el corpus estaba planeando extrantar frases comunes del corpus, para esto intenté usar el modelo de Frases en gensim, probé el código de abajo pero no me está dando el resultado deseado. Mi código from gensim.models import Phrases documents = [“the mayor of new york was there”, “machine learning can be useful sometimes”] […]

Error al implementar gensim.LdaMallet

Estaba siguiendo las instrucciones en este enlace (” http://radimrehurek.com/2014/03/tutorial-on-mallet-in-python/ “), sin embargo, encontré un error cuando intenté entrenar el modelo: model = models.LdaMallet(mallet_path, corpus, num_topics =10, id2word = corpus.dictionary) IOError: [Errno 2] No such file or directory: ‘c:\\users\\brlu\\appdata\\local\\temp\\c6a13a_state.mallet.gz’ Por favor comparte cualquier pensamiento que puedas tener. Gracias.

¿Cómo imprimir los modelos de temas LDA desde gensim? Pitón

Usando gensim pude extraer temas de un conjunto de documentos en LSA, pero ¿cómo gensim a los temas generados a partir de los modelos LDA? Al imprimir lda.print_topics(10) el código dio el siguiente error porque print_topics() devuelve un tipo de NoneType : Traceback (most recent call last): File “/home/alvas/workspace/XLINGTOP/xlingtop.py”, line 93, in for top in […]

Convertir archivo bin word2vec a texto

Desde el sitio de word2vec puedo descargar GoogleNews-vectors-negative300.bin.gz. El archivo .bin (alrededor de 3.4GB) es un formato binario que no me es útil. Tomas Mikolov nos asegura que “debería ser bastante sencillo convertir el formato binario al formato de texto (aunque eso llevará más espacio en el disco). Verifique el código en la herramienta de […]

Cómo instalar gensim en windows

No puedo instalar gensim en windows. Por favor, ayúdeme. Necesito gensim de inmediato y dígame los pasos de instalación con más detalles y otro software que debe instalarse antes. Gracias

¿Cómo usar Gensim doc2vec con vectores de palabras pre-entrenados?

Recientemente me encontré con la adición de doc2vec a Gensim. ¿Cómo puedo usar vectores de palabras pre-entrenados (p. Ej., Encontrados en el sitio web original de word2vec) con doc2vec? ¿O es que doc2vec obtiene los vectores de palabras de las mismas oraciones que usa para la capacitación de vectores de párrafos? Gracias.