Articles of word2vec

Cómo hacer mapeo de palabras clave en pandas

Tengo palabra clave India Japan United States Germany China Aquí está el dataframe de muestra id Address 1 Chome-2-8 Shibakoen, Minato, Tokyo 105-0011, Japan 2 Arcisstraße 21, 80333 München, Germany 3 Liberty Street, Manhattan, New York, United States 4 30 Shuangqing Rd, Haidian Qu, Beijing Shi, China 5 Vaishnavi Summit,80feet Road,3rd Block,Bangalore, Karnataka, India Mi […]

¿Cómo cargar un archivo MODELO de Word2vec pre-entrenado y reutilizarlo?

Quiero usar un modelo de word2vec pre-entrenado, pero no sé cómo cargarlo en Python. Este archivo es un archivo MODELO (703 MB). Se puede descargar aquí: http://devmount.github.io/GermanWordEmbeddings/

Error de deencoding ‘utf-8’ al cargar un módulo word2vec

Tengo que usar un módulo word2vec que contiene toneladas de caracteres chinos. El módulo fue capacitado por mis compañeros de trabajo utilizando Java y se guarda como un archivo bin. Instalé gensim e intenté cargar el módulo, pero ocurrió el siguiente error: In [1]: import gensim In [2]: model = gensim.models.Word2Vec.load_word2vec_format(‘/data5/momo-projects/user_interest_classification/code/word2vec/vectors_groups_1105.bin’, binary=True) UnicodeDecodeError: ‘utf-8’ codec […]

Cómo usar el modelo Word2Vec pre-entrenado en Tensorflow

Tengo un modelo de Word2Vec que está entrenado en Gensim . ¿Cómo puedo usarlo en Tensorflow para Word Embeddings ? No quiero entrenar Incrustaciones desde cero en Tensorflow. ¿Alguien puede decirme cómo hacerlo con algún código de ejemplo?

Error: el códec ‘utf8’ no puede decodificar el byte 0x80 en la posición 0: el byte de inicio no es válido

Estoy tratando de hacer lo siguiente kaggle assignmnet . Estoy usando el paquete gensim para usar word2vec. Soy capaz de crear el modelo y almacenarlo en el disco. Pero cuando bash volver a cargar el archivo, aparece el siguiente error. -HP-dx2280-MT-GR541AV:~$ python prog_w2v.py Traceback (most recent call last): File “prog_w2v.py”, line 7, in models = […]

Cargue gensim Word2Vec computado en Python 2, en Python 3

Tengo un modelo gensim Word2Vec computado en Python 2 así: from gensim.models import Word2Vec from gensim.models.word2vec import LineSentence model = Word2Vec(LineSentence(‘enwiki.txt’), size=100, window=5, min_count=5, workers=15) model.save(‘w2v.model’) Sin embargo, necesito usarlo en Python 3. Si bash cargarlo, import gensim from gensim.models import Word2Vec model = Word2Vec.load(‘w2v.model’) se traduce en un error: UnicodeDecodeError: ‘ascii’ codec can’t decode […]

AttributeError: el módulo ‘tensorflow.models.embedding.gen_word2vec’ no tiene atributo ‘skipgram_word2vec’

Soy nuevo en Tensorflow y estoy ejecutando el tutorial del código de inserción de word2vec ( https://github.com/tensorflow/models/tree/master/tutorials/embedding ) en Tensorflow (solo para CPU), OS X: 10.11.6 . Instalé tensorflow a través de pip install . La ejecución de word2vec_basic.py puede alcanzar el resultado esperado, pero cuando se convierte en word2vec.py y word2vec_optimized.py , se muestra […]

Inyectando vectores word2vec pre-entrenados en TensorFlow seq2seq

Estaba intentando inyectar vectores word2vec pre-entrenados en el modelo existente tensorflow seq2seq. Siguiendo esta respuesta , produje el siguiente código. Pero no parece mejorar el rendimiento como debería, aunque los valores en la variable se actualizan. Según tengo entendido, el error podría deberse al hecho de que EmbeddingWrapper o embedding_attention_decoder crean incrustaciones independientemente del orden […]

Tensorflow: modelo Word2vec CBOW

Soy nuevo en tensorflow y en word2vec. Acabo de estudiar word2vec_basic.py que entrena el modelo usando el algoritmo Skip-Gram . Ahora quiero entrenar usando el algoritmo CBOW . ¿Es cierto que esto se puede lograr si simplemente train_inputs las train_inputs y train_labels ?

¿Qué son las iteraciones de entrenamiento doc2vec?

Soy nuevo en doc2vec. Inicialmente estaba tratando de entender doc2vec y se menciona a continuación mi código que usa Gensim. Como quiero, recibo un modelo entrenado y documentos de vectores para los dos documentos. Sin embargo, me gustaría saber los beneficios de volver a entrenar el modelo en varias épocas y cómo hacerlo en Gensim. […]