Articles of word2vec

Cargue gensim Word2Vec computado en Python 2, en Python 3

Tengo un modelo gensim Word2Vec computado en Python 2 así: from gensim.models import Word2Vec from gensim.models.word2vec import LineSentence model = Word2Vec(LineSentence(‘enwiki.txt’), size=100, window=5, min_count=5, workers=15) model.save(‘w2v.model’) Sin embargo, necesito usarlo en Python 3. Si bash cargarlo, import gensim from gensim.models import Word2Vec model = Word2Vec.load(‘w2v.model’) se traduce en un error: UnicodeDecodeError: ‘ascii’ codec can’t decode […]

AttributeError: el módulo ‘tensorflow.models.embedding.gen_word2vec’ no tiene atributo ‘skipgram_word2vec’

Soy nuevo en Tensorflow y estoy ejecutando el tutorial del código de inserción de word2vec ( https://github.com/tensorflow/models/tree/master/tutorials/embedding ) en Tensorflow (solo para CPU), OS X: 10.11.6 . Instalé tensorflow a través de pip install . La ejecución de word2vec_basic.py puede alcanzar el resultado esperado, pero cuando se convierte en word2vec.py y word2vec_optimized.py , se muestra […]

Inyectando vectores word2vec pre-entrenados en TensorFlow seq2seq

Estaba intentando inyectar vectores word2vec pre-entrenados en el modelo existente tensorflow seq2seq. Siguiendo esta respuesta , produje el siguiente código. Pero no parece mejorar el rendimiento como debería, aunque los valores en la variable se actualizan. Según tengo entendido, el error podría deberse al hecho de que EmbeddingWrapper o embedding_attention_decoder crean incrustaciones independientemente del orden […]

Tensorflow: modelo Word2vec CBOW

Soy nuevo en tensorflow y en word2vec. Acabo de estudiar word2vec_basic.py que entrena el modelo usando el algoritmo Skip-Gram . Ahora quiero entrenar usando el algoritmo CBOW . ¿Es cierto que esto se puede lograr si simplemente train_inputs las train_inputs y train_labels ?

¿Qué son las iteraciones de entrenamiento doc2vec?

Soy nuevo en doc2vec. Inicialmente estaba tratando de entender doc2vec y se menciona a continuación mi código que usa Gensim. Como quiero, recibo un modelo entrenado y documentos de vectores para los dos documentos. Sin embargo, me gustaría saber los beneficios de volver a entrenar el modelo en varias épocas y cómo hacerlo en Gensim. […]

El objeto ‘módulo’ de TensorFlow no tiene el atributo ‘global_variables_initializer’

Soy nuevo en Tensorflow. Estoy ejecutando una asignación de aprendizaje profundo de Udacity en la notebook iPython. enlazar Y tiene un error. AttributeError Traceback (most recent call last) “ in “() 2 3 with tf.Session(graph=graph) as session: —-> 4 tf.global_variables_initializer().run() AttributeError: ‘module’ object has no attribute ‘global_variables_initializer’ ¡Por favor ayuda! ¿Cómo puedo arreglar esto? Gracias.

¿Usar el código tutorial de LSTM para predecir la siguiente palabra en una oración?

He estado tratando de entender el código de muestra con https://www.tensorflow.org/tutorials/recurrent que puede encontrar en https://github.com/tensorflow/models/blob/master/tutorials/rnn/ptb /ptb_word_lm.py (Utilizando tensorflow 1.3.0.) He resumido (lo que creo que son) las partes clave, para mi pregunta, a continuación: size = 200 vocab_size = 10000 layers = 2 # input_.input_data is a 2D tensor [batch_size, num_steps] of # word […]

Cómo manejar palabras que no están en el vocabulario de word2vec de manera óptima

Tengo una lista de ~ 10 millones de oraciones, donde cada una de ellas contiene hasta 70 palabras. Estoy ejecutando gensim word2vec en cada palabra y luego tomando el promedio simple de cada oración. El problema es que uso min_count = 1000, por lo que muchas palabras no están en el vocabulario. Para resolver eso, […]

¿Cómo entrenar Word2vec en conjuntos de datos muy grandes?

Estoy pensando en entrenar word2vec en datos a gran escala de más de 10 TB + de tamaño en el volcado de rastreo web. Personalmente entrené la implementación de GoogleNews-2012 dump (1.5 gb) en mi iMac, me tomó aproximadamente 3 horas entrenar y generar vectores (impresionados por la velocidad). Sin embargo, no probé la implementación […]

¿Cómo obtener antónimos a través de word2vec?

Actualmente estoy trabajando en el modelo word2vec usando gensim en Python, y quiero escribir una función que pueda ayudarme a encontrar los antónimos y sinónimos de una palabra determinada. Por ejemplo: antonimo (“triste”) = “feliz” sinónimo (“molesto”) = “enfurecido” ¿Hay una manera de hacer eso en word2vec?