Articles of gensim

¿Cómo se implementa TF-IDF en la herramienta gensim en python?

A partir de los documentos que encontré en la red, descubrí la expresión utilizada para determinar la frecuencia de los términos y el peso inverso de las frecuencias de los términos en un corpus a ser tf-idf (wt) = tf * log (| N | / d); Estaba pasando por la implementación de tf-idf mencionada […]

¿Cómo cargar un archivo MODELO de Word2vec pre-entrenado y reutilizarlo?

Quiero usar un modelo de word2vec pre-entrenado, pero no sé cómo cargarlo en Python. Este archivo es un archivo MODELO (703 MB). Se puede descargar aquí: http://devmount.github.io/GermanWordEmbeddings/

Entrenamiento de wordvec en Tensorflow, importando a Gensim.

Estoy entrenando un modelo word2vec del tutorial tensorflow. https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/word2vec/word2vec_basic.py Después del entrenamiento me sale la matriz de incrustación. Me gustaría guardar esto e importarlo como un modelo entrenado en gensim. Para cargar un modelo en gensim, el comando es: model = Word2Vec.load_word2vec_format(fn, binary=True) Pero, ¿cómo genero el archivo fn desde Tensorflow? Gracias

Error de deencoding ‘utf-8’ al cargar un módulo word2vec

Tengo que usar un módulo word2vec que contiene toneladas de caracteres chinos. El módulo fue capacitado por mis compañeros de trabajo utilizando Java y se guarda como un archivo bin. Instalé gensim e intenté cargar el módulo, pero ocurrió el siguiente error: In [1]: import gensim In [2]: model = gensim.models.Word2Vec.load_word2vec_format(‘/data5/momo-projects/user_interest_classification/code/word2vec/vectors_groups_1105.bin’, binary=True) UnicodeDecodeError: ‘utf-8’ codec […]

Entendiendo el Cuerpo Transformado LDA en Gensim

Traté de examinar el contenido del corpus BOW frente al LDA [Corpus BOW] (transformado por el modelo LDA entrenado en ese corpus con, por ejemplo, 35 temas) encontré el siguiente resultado: DOC 1 : [(1522, 1), (2028, 1), (2082, 1), (6202, 1)] LDA 1 : [(29, 0.80571428571428572)] DOC 2 : [(1522, 1), (5364, 1), (6202, […]

Cómo usar el modelo Word2Vec pre-entrenado en Tensorflow

Tengo un modelo de Word2Vec que está entrenado en Gensim . ¿Cómo puedo usarlo en Tensorflow para Word Embeddings ? No quiero entrenar Incrustaciones desde cero en Tensorflow. ¿Alguien puede decirme cómo hacerlo con algún código de ejemplo?

gensim word2vec: dimensiones de matriz en la actualización con incrustación de palabras en línea

Word2Vec de gensim 0.13.4.1 para actualizar los vectores de palabras sobre la marcha no funciona. model.build_vocab(sentences, update=False) funciona bien; sin embargo, model.build_vocab(sentences, update=True) no. Estoy usando este sitio web para tratar de emular lo que han hecho; Por eso uso el siguiente script en algún momento: model = gensim.models.Word2Vec() sentences = gensim.models.word2vec.LineSentence(“./text8/text8”) model.build_vocab(sentences, keep_raw_vocab=False, trim_rule=None, […]

Error: el códec ‘utf8’ no puede decodificar el byte 0x80 en la posición 0: el byte de inicio no es válido

Estoy tratando de hacer lo siguiente kaggle assignmnet . Estoy usando el paquete gensim para usar word2vec. Soy capaz de crear el modelo y almacenarlo en el disco. Pero cuando bash volver a cargar el archivo, aparece el siguiente error. -HP-dx2280-MT-GR541AV:~$ python prog_w2v.py Traceback (most recent call last): File “prog_w2v.py”, line 7, in models = […]

Recuperar la versión de cadena del documento por ID en Gensim

Estoy usando Gensim para algunos modelos de temas y he llegado al punto en el que estoy haciendo consultas de similitud utilizando los modelos LSI y tf-idf. Recupero el conjunto de ID y similitudes, por ejemplo. (299501, 0.64505910873413086) . ¿Cómo obtengo el documento de texto relacionado con la ID, en este caso 299501? He mirado […]

Cargue gensim Word2Vec computado en Python 2, en Python 3

Tengo un modelo gensim Word2Vec computado en Python 2 así: from gensim.models import Word2Vec from gensim.models.word2vec import LineSentence model = Word2Vec(LineSentence(‘enwiki.txt’), size=100, window=5, min_count=5, workers=15) model.save(‘w2v.model’) Sin embargo, necesito usarlo en Python 3. Si bash cargarlo, import gensim from gensim.models import Word2Vec model = Word2Vec.load(‘w2v.model’) se traduce en un error: UnicodeDecodeError: ‘ascii’ codec can’t decode […]