Articles of gensim

¿Cuál es la forma más sencilla de obtener tfidf con el dataframe de pandas?

Quiero calcular tf-idf a partir de los siguientes documentos. Estoy usando python y pandas. import pandas as pd df = pd.DataFrame({‘docId’: [1,2,3], ‘sent’: [‘This is the first sentence’,’This is the second sentence’, ‘This is the third sentence’]}) Primero, pensé que tendría que obtener word_count para cada fila. Así que escribí una función simple: def word_count(sent): […]

Doc2vec: Cómo obtener vectores de documentos

¿Cómo obtener vectores de documentos de dos documentos de texto utilizando Doc2vec? Soy nuevo en esto, por lo que sería útil que alguien me indicara la dirección correcta o me ayudara con algún tutorial. Estoy usando gensim. doc1=[“This is a sentence”,”This is another sentence”] documents1=[doc.strip().split(” “) for doc in doc1 ] model = doc2vec.Doc2Vec(documents1, size […]

¿Cómo crear una nube de palabras a partir de un corpus en Python?

Desde la creación de un subconjunto de palabras de un corpus en R , el que responde puede convertir fácilmente una term-document matrix en una nube de palabras fácilmente. ¿Existe una función similar de las bibliotecas de Python que toma un Gensim texto de palabra sin Gensim o un corpus Gensim o Gensim Mmcorpus en […]

Aprendizaje de transferencia de Word2vec de gensim (de un modelo no gensim)

Tengo un conjunto de incrustaciones entrenadas con una neural network que no tiene nada que ver con word2vec de gensim. Quiero usar estas incrustaciones como los pesos iniciales en gensim.Word2vec . Ahora lo que sí vi es que puedo model.load(SOME_MODEL) y luego continuar con el entrenamiento, pero requiere un modulo de Gensim como entrada. También, […]

Distribución de temas: ¿Cómo vemos qué documento pertenece a qué tema después de hacer LDA en python?

Soy capaz de ejecutar el código LDA desde gensim y obtuve los 10 temas principales con sus respectivas palabras clave. Ahora me gustaría ir un paso más allá para ver qué tan preciso es el LDA algo al ver qué documento se agrupan en cada tema. ¿Es esto posible en gensim LDA? Básicamente, me gustaría […]

¿Por qué se crean múltiples archivos de modelo en word2vec gensim?

Cuando trato de crear un modelo word2vec (skipgram con muestreo negativo) recibí 3 archivos como se muestra a continuación. word2vec (File) word2vec.syn1nef.npy (NPY file) word2vec.wv.syn0.npy (NPY file) Solo me preocupa por qué sucede esto, ya que en mis ejemplos de prueba anteriores en word2vec solo recibí un modelo (no archivos npy). Por favor, ayúdame.

Cómo calcular la similitud de una oración usando el modelo word2vec de gensim con python

De acuerdo con Gensim Word2Vec , puedo usar el modelo word2vec en el paquete gensim para calcular la similitud entre 2 palabras. p.ej trained_model.similarity(‘woman’, ‘man’) 0.73723527 Sin embargo, el modelo word2vec no puede predecir la similitud de la oración. Descubrí el modelo LSI con similitud de oraciones en gensim, pero, que no parece que se […]

Interpretación de la sum de las puntuaciones de palabras TF-IDF en los documentos

Primero, extraigamos los puntajes TF-IDF por término por documento: from gensim import corpora, models, similarities documents = [“Human machine interface for lab abc computer applications”, “A survey of user opinion of computer system response time”, “The EPS user interface management system”, “System and human system engineering testing of EPS”, “Relation of user perceived response time […]

El modelo LDA genera diferentes temas cada vez que entreno en el mismo corpus.

Estoy usando python gensim para entrenar un modelo de Asignación de Dirichlet Latente (LDA) a partir de un pequeño cuerpo de 231 oraciones. Sin embargo, cada vez que repito el proceso, genera diferentes temas. ¿Por qué los mismos parámetros y cuerpo de LDA generan diferentes temas cada vez? ¿Y cómo estabilizo la generación de temas? […]

¿Cómo inicializar una variable de gensim corpus con un csr_matrix?

Tengo X como un csr_matrix que obtuve usando el vectorizador tfidf de scikit, y y que es una matriz Mi plan es crear características utilizando LDA, sin embargo, no pude encontrar cómo inicializar una variable de corpus de gensim con X como csr_matrix. En otras palabras, no quiero descargar un corpus como se muestra en […]