Articles of gensim

Deshabilitar la eliminación de puntuación de Gensim, etc. al analizar un corpus wiki

Quiero entrenar un modelo word2vec en la wikipedia en inglés usando python con gensim. Seguí de cerca https://groups.google.com/forum/#!topic/gensim/MJWrDw_IvXw para eso. Funciona para mí, pero lo que no me gusta del modelo resultante de word2vec es que las entidades con nombre se dividen, lo que hace que el modelo sea inutilizable para mi aplicación específica. El […]

Python Gensim: ¿cómo calcular la similitud de documentos utilizando el modelo LDA?

Tengo un modelo LDA entrenado y quiero calcular la puntuación de similitud entre dos documentos del corpus en el que entrené a mi modelo. Después de estudiar todos los tutoriales y funciones de Gensim, todavía no puedo entenderlo. ¿Alguien puede darme una pista? ¡Gracias!

ImportError: Ningún módulo llamado py31compat

estoy tratando de instalar gensim usando sudo -H pip install –upgrade gensim pero me está dando este error: File “setup.py”, line 301, in include_package_data=True, File “/usr/lib/python2.7/distutils/core.py”, line 151, in setup dist.run_commands() File “/usr/lib/python2.7/distutils/dist.py”, line 953, in run_commands self.run_command(cmd) File “/usr/lib/python2.7/distutils/dist.py”, line 972, in run_command cmd_obj.run() File “/usr/local/lib/python2.7/dist-packages/setuptools/command /install.py”, line 67, in run self.do_egg_install() File “/usr/local/lib/python2.7/dist-packages/setuptools/command […]

¿Cómo interpretar los resultados de Clusters después de usar Doc2vec?

Estoy utilizando doc2vec para convertir los primeros 100 tweets de mis seguidores en representación vectorial (por ejemplo, v1 ….. v100). Después de eso estoy usando la representación vectorial para hacer los grupos de K-medias. model = Doc2Vec(documents=t, size=100, alpha=.035, window=10, workers=4, min_count=2) Puedo ver que el grupo 0 está dominado por algunos valores (por ejemplo, […]

¿Cómo obtener antónimos a través de word2vec?

Actualmente estoy trabajando en el modelo word2vec usando gensim en Python, y quiero escribir una función que pueda ayudarme a encontrar los antónimos y sinónimos de una palabra determinada. Por ejemplo: antonimo (“triste”) = “feliz” sinónimo (“molesto”) = “enfurecido” ¿Hay una manera de hacer eso en word2vec?

¿Debo usar tfidf corpus o solo corpus para inferir documentos usando LDA?

Me pregunto si es el corpus de TFIDF que se va a usar o el corpus que se usará cuando seamos documentos de inferencia utilizando LDA en gensim Aquí hay un ejemplo from gensim import corpora, models import numpy.random numpy.random.seed(10) doc0 = [(0, 1), (1, 1)] doc1 = [(0,1)] doc2 = [(0, 1), (1, 1)] […]

Error en la extracción de frases usando Gensim

Estoy tratando de obtener los bigtwigs en las oraciones usando Frases en Gensim de la siguiente manera. from gensim.models import Phrases from gensim.models.phrases import Phraser documents = [“the mayor of new york was there”, “machine learning can be useful sometimes”,”new york mayor was present”] sentence_stream = [doc.split(” “) for doc in documents] #print(sentence_stream) bigram = […]

RAKE con GENSIM

Estoy tratando de calcular la similitud. En primer lugar, utilicé la biblioteca RAKE para extraer las palabras clave de los trabajos rastreados. Luego puse las palabras clave de cada trabajo en una matriz separada y luego combiné todas esas matrices en documentArray. documentArray = [‘Comando de la ira, Asertividad, Accesibilidad, Adaptabilidad, Autenticidad, Agresividad, Pensamiento analítico, […]

Gensim LdaMulticore no multiprocesamiento?

Cuando ejecuto el modelo LdaMulticore de LdaMulticore en una máquina con 12 núcleos, usando: lda = LdaMulticore(corpus, num_topics=64, workers=10) Me sale un mensaje de registro que dice using serial LDA version on this node Unas líneas más tarde, veo otro mensaje de registro que dice training LDA model using 10 processes Cuando ejecuto top, veo […]

Similitud de coseno y temas de LDA

Quiero calcular la similitud de coseno entre los temas de LDA. De hecho, la función gensim .matutils.cossim puede hacerlo pero no sé qué parámetro (vector) puedo usar para esta función? Aquí hay un complemento de código: import numpy as np import lda from sklearn.feature_extraction.text import CountVectorizer cvectorizer = CountVectorizer(min_df=4, max_features=10000, stop_words=’english’) cvz = cvectorizer.fit_transform(tweet_texts_processed) n_topics […]