Articles of gensim

Cómo extraer frases de corpus usando gensim

Para preprocesar el corpus estaba planeando extrantar frases comunes del corpus, para esto intenté usar el modelo de Frases en gensim, probé el código de abajo pero no me está dando el resultado deseado. Mi código from gensim.models import Phrases documents = [“the mayor of new york was there”, “machine learning can be useful sometimes”] […]

Error al implementar gensim.LdaMallet

Estaba siguiendo las instrucciones en este enlace (” http://radimrehurek.com/2014/03/tutorial-on-mallet-in-python/ “), sin embargo, encontré un error cuando intenté entrenar el modelo: model = models.LdaMallet(mallet_path, corpus, num_topics =10, id2word = corpus.dictionary) IOError: [Errno 2] No such file or directory: ‘c:\\users\\brlu\\appdata\\local\\temp\\c6a13a_state.mallet.gz’ Por favor comparte cualquier pensamiento que puedas tener. Gracias.

¿Cómo imprimir los modelos de temas LDA desde gensim? Pitón

Usando gensim pude extraer temas de un conjunto de documentos en LSA, pero ¿cómo gensim a los temas generados a partir de los modelos LDA? Al imprimir lda.print_topics(10) el código dio el siguiente error porque print_topics() devuelve un tipo de NoneType : Traceback (most recent call last): File “/home/alvas/workspace/XLINGTOP/xlingtop.py”, line 93, in for top in […]

Convertir archivo bin word2vec a texto

Desde el sitio de word2vec puedo descargar GoogleNews-vectors-negative300.bin.gz. El archivo .bin (alrededor de 3.4GB) es un formato binario que no me es útil. Tomas Mikolov nos asegura que “debería ser bastante sencillo convertir el formato binario al formato de texto (aunque eso llevará más espacio en el disco). Verifique el código en la herramienta de […]

Cómo instalar gensim en windows

No puedo instalar gensim en windows. Por favor, ayúdeme. Necesito gensim de inmediato y dígame los pasos de instalación con más detalles y otro software que debe instalarse antes. Gracias

¿Cómo usar Gensim doc2vec con vectores de palabras pre-entrenados?

Recientemente me encontré con la adición de doc2vec a Gensim. ¿Cómo puedo usar vectores de palabras pre-entrenados (p. Ej., Encontrados en el sitio web original de word2vec) con doc2vec? ¿O es que doc2vec obtiene los vectores de palabras de las mismas oraciones que usa para la capacitación de vectores de párrafos? Gracias.

¿Cómo puedo acceder a la incrustación de salida (vector de salida) en gensim word2vec?

Quiero usar la incrustación de salida de word2vec como en este documento (Mejora de la clasificación de documentos con incrustaciones de doble palabra) . Sé que los vectores de entrada están en syn0, los vectores de salida están en syn1 y syn1neg si el muestreo es negativo. Pero cuando calculé most_similar con el vector de […]

Gensim: TypeError: doc2bow espera una matriz de tokens Unicode en la entrada, no una sola cadena

Estoy empezando con alguna tarea de python, estoy enfrentando un problema mientras uso gensim. Estoy tratando de cargar archivos de mi disco y procesarlos (dividirlos y minúsculas ()) El código que tengo está abajo: dictionary_arr=[] for file_path in glob.glob(os.path.join(path, ‘*.txt’)): with open (file_path, “r”) as myfile: text=myfile.read() for words in text.lower().split(): dictionary_arr.append(words) dictionary = corpora.Dictionary(dictionary_arr) […]

Documento de distribución tópica en Gensim LDA.

He derivado un modelo de tema LDA utilizando un corpus de juguete de la siguiente manera: documents = [‘Human machine interface for lab abc computer applications’, ‘A survey of user opinion of computer system response time’, ‘The EPS user interface management system’, ‘System and human system engineering testing of EPS’, ‘Relation of user perceived response […]

¿Cuál es la forma más sencilla de obtener tfidf con el dataframe de pandas?

Quiero calcular tf-idf a partir de los siguientes documentos. Estoy usando python y pandas. import pandas as pd df = pd.DataFrame({‘docId’: [1,2,3], ‘sent’: [‘This is the first sentence’,’This is the second sentence’, ‘This is the third sentence’]}) Primero, pensé que tendría que obtener word_count para cada fila. Así que escribí una función simple: def word_count(sent): […]