Articles of word2vec

¿Cómo entrenar Word2vec en conjuntos de datos muy grandes?

Estoy pensando en entrenar word2vec en datos a gran escala de más de 10 TB + de tamaño en el volcado de rastreo web. Personalmente entrené la implementación de GoogleNews-2012 dump (1.5 gb) en mi iMac, me tomó aproximadamente 3 horas entrenar y generar vectores (impresionados por la velocidad). Sin embargo, no probé la implementación […]

¿Cómo obtener antónimos a través de word2vec?

Actualmente estoy trabajando en el modelo word2vec usando gensim en Python, y quiero escribir una función que pueda ayudarme a encontrar los antónimos y sinónimos de una palabra determinada. Por ejemplo: antonimo (“triste”) = “feliz” sinónimo (“molesto”) = “enfurecido” ¿Hay una manera de hacer eso en word2vec?

Error en la extracción de frases usando Gensim

Estoy tratando de obtener los bigtwigs en las oraciones usando Frases en Gensim de la siguiente manera. from gensim.models import Phrases from gensim.models.phrases import Phraser documents = [“the mayor of new york was there”, “machine learning can be useful sometimes”,”new york mayor was present”] sentence_stream = [doc.split(” “) for doc in documents] #print(sentence_stream) bigram = […]

‘archivo’ objeto no tiene atributo ‘rfind’

Estoy tratando de guardar un word2vec en un archivo. model = Word2Vec(sentences, size=vector_size, window=5, min_count=5, workers=4) fo = open(“foo.txt”, “wb”) model.save(fo) Estoy recibiendo el siguiente error en genericpath.py File “word2Vec_impl.py”, line 39, in model.save(fo, separately=None) File “C:\Python27\lib\site-packages\gensim\models\word2vec.py”, line 669, in s ave super(Word2Vec, self).save(*args, **kwargs) File “C:\Python27\lib\site-packages\gensim\utils.py”, line 269, in save pickle(self, fname) File “C:\Python27\lib\site-packages\gensim\utils.py”, […]

¿Cómo creo una capa de incrustación Keras a partir de un conjunto de datos de incrustación de palabras previamente entrenado?

¿Cómo puedo cargar una inserción de palabras pre-entrenada en una capa de Embedding Keras? Descargué el archivo glove.6B.50d.txt (glove.6B.zip de https://nlp.stanford.edu/projects/glove/ ) y no estoy seguro de cómo agregarlo a una capa de incrustación Keras. Ver: https://keras.io/layers/embeddings/

Entendiendo la salida de Doc2Vec del paquete Gensim

Tengo algunas oraciones de ejemplo que deseo ejecutar a través de un modelo Doc2Vec. Mi objective final es una matriz de tamaño (num_sentences, num_features). Estoy usando el paquete Gensim. from gensim.models.doc2vec import TaggedDocument from gensim.models import Doc2Vec # warning: long sample of data. It’s just 40 sentences really though. labeled_sents = [TaggedDocument(words=[‘u0644’, ‘u0646’, ‘u062f’, ‘u0646’, […]

el uso de Word2VecModel.transform () no funciona en la función de mapa

He construido un modelo de Word2Vec usando Spark y lo guardo como modelo. Ahora, quiero usarlo en otro código como modelo fuera de línea. He cargado el modelo y lo he usado para presentar el vector de una palabra (por ejemplo, Hola) y funciona bien. Pero, necesito llamarlo para muchas palabras en un RDD usando […]

Incorporación pretratada en el suelo mientras se aprende la incorporación de nuevas palabras en Tensorflow

Intenté usar el siguiente fragmento de código. Puesta a tierra de las incorporaciones pre-entrenadas y las integraciones de aprendizaje solo para el nuevo vocabulario. Pero las incrustaciones para las palabras predefinidas también se cambiaron.

Convertir archivo bin word2vec a texto

Desde el sitio de word2vec puedo descargar GoogleNews-vectors-negative300.bin.gz. El archivo .bin (alrededor de 3.4GB) es un formato binario que no me es útil. Tomas Mikolov nos asegura que “debería ser bastante sencillo convertir el formato binario al formato de texto (aunque eso llevará más espacio en el disco). Verifique el código en la herramienta de […]

¿Cómo usar Gensim doc2vec con vectores de palabras pre-entrenados?

Recientemente me encontré con la adición de doc2vec a Gensim. ¿Cómo puedo usar vectores de palabras pre-entrenados (p. Ej., Encontrados en el sitio web original de word2vec) con doc2vec? ¿O es que doc2vec obtiene los vectores de palabras de las mismas oraciones que usa para la capacitación de vectores de párrafos? Gracias.