Articles of gensim

Cargue gensim Word2Vec computado en Python 2, en Python 3

Tengo un modelo gensim Word2Vec computado en Python 2 así: from gensim.models import Word2Vec from gensim.models.word2vec import LineSentence model = Word2Vec(LineSentence(‘enwiki.txt’), size=100, window=5, min_count=5, workers=15) model.save(‘w2v.model’) Sin embargo, necesito usarlo en Python 3. Si bash cargarlo, import gensim from gensim.models import Word2Vec model = Word2Vec.load(‘w2v.model’) se traduce en un error: UnicodeDecodeError: ‘ascii’ codec can’t decode […]

Doc2Vec Oración Clustering

Tengo varios documentos que contienen varias oraciones. Quiero usar doc2vec para agrupar (por ejemplo, k-medias) los vectores de oraciones usando sklearn . Como tal, la idea es que las oraciones similares se agrupen en varios grupos. Sin embargo, no me queda claro si tengo que entrenar cada documento por separado y luego usar un algoritmo […]

¿Cómo obtener el texto de wikipedia corpus con puntuación utilizando gensim wikicorpus?

Estoy tratando de obtener el texto con su puntuación, ya que es importante tener en cuenta esto último en mi modelo doc2vec. Sin embargo, el wikicorpus solo recupera el texto. Después de buscar en la web encontré estas páginas: Página de la sección de temas de Gensim Github. Fue una pregunta de alguien donde la […]

¿Cómo cargar oraciones en Python gensim?

Estoy tratando de usar el módulo gensim la biblioteca de procesamiento de lenguaje natural gensim en Python. Los documentos dicen para inicializar el modelo: from gensim.models import word2vec model = Word2Vec(sentences, size=100, window=5, min_count=5, workers=4) ¿Qué formato espera el gensim para las oraciones de entrada? Tengo texto crudo “the quick brown fox jumps over the […]

¿Qué son las iteraciones de entrenamiento doc2vec?

Soy nuevo en doc2vec. Inicialmente estaba tratando de entender doc2vec y se menciona a continuación mi código que usa Gensim. Como quiero, recibo un modelo entrenado y documentos de vectores para los dos documentos. Sin embargo, me gustaría saber los beneficios de volver a entrenar el modelo en varias épocas y cómo hacerlo en Gensim. […]

¿Podemos usar un corpus hecho por nosotros mismos para entrenar para LDA usando gensim?

Tengo que aplicar LDA (Asignación de Dirichlet Latente) para obtener los posibles temas de una base de datos de 20,000 documentos que recopilé. ¿Cómo puedo usar estos documentos en lugar del otro corpus disponible como Brown Corpus o la Wikipedia en inglés como corpus de entrenamiento? Puede consultar esta página.

Cómo manejar palabras que no están en el vocabulario de word2vec de manera óptima

Tengo una lista de ~ 10 millones de oraciones, donde cada una de ellas contiene hasta 70 palabras. Estoy ejecutando gensim word2vec en cada palabra y luego tomando el promedio simple de cada oración. El problema es que uso min_count = 1000, por lo que muchas palabras no están en el vocabulario. Para resolver eso, […]

Deshabilitar la eliminación de puntuación de Gensim, etc. al analizar un corpus wiki

Quiero entrenar un modelo word2vec en la wikipedia en inglés usando python con gensim. Seguí de cerca https://groups.google.com/forum/#!topic/gensim/MJWrDw_IvXw para eso. Funciona para mí, pero lo que no me gusta del modelo resultante de word2vec es que las entidades con nombre se dividen, lo que hace que el modelo sea inutilizable para mi aplicación específica. El […]

Python Gensim: ¿cómo calcular la similitud de documentos utilizando el modelo LDA?

Tengo un modelo LDA entrenado y quiero calcular la puntuación de similitud entre dos documentos del corpus en el que entrené a mi modelo. Después de estudiar todos los tutoriales y funciones de Gensim, todavía no puedo entenderlo. ¿Alguien puede darme una pista? ¡Gracias!

ImportError: Ningún módulo llamado py31compat

estoy tratando de instalar gensim usando sudo -H pip install –upgrade gensim pero me está dando este error: File “setup.py”, line 301, in include_package_data=True, File “/usr/lib/python2.7/distutils/core.py”, line 151, in setup dist.run_commands() File “/usr/lib/python2.7/distutils/dist.py”, line 953, in run_commands self.run_command(cmd) File “/usr/lib/python2.7/distutils/dist.py”, line 972, in run_command cmd_obj.run() File “/usr/local/lib/python2.7/dist-packages/setuptools/command /install.py”, line 67, in run self.do_egg_install() File “/usr/local/lib/python2.7/dist-packages/setuptools/command […]