Articles of gensim

¿Cómo obtener el texto de wikipedia corpus con puntuación utilizando gensim wikicorpus?

Estoy tratando de obtener el texto con su puntuación, ya que es importante tener en cuenta esto último en mi modelo doc2vec. Sin embargo, el wikicorpus solo recupera el texto. Después de buscar en la web encontré estas páginas: Página de la sección de temas de Gensim Github. Fue una pregunta de alguien donde la […]

¿Cómo cargar oraciones en Python gensim?

Estoy tratando de usar el módulo gensim la biblioteca de procesamiento de lenguaje natural gensim en Python. Los documentos dicen para inicializar el modelo: from gensim.models import word2vec model = Word2Vec(sentences, size=100, window=5, min_count=5, workers=4) ¿Qué formato espera el gensim para las oraciones de entrada? Tengo texto crudo “the quick brown fox jumps over the […]

¿Qué son las iteraciones de entrenamiento doc2vec?

Soy nuevo en doc2vec. Inicialmente estaba tratando de entender doc2vec y se menciona a continuación mi código que usa Gensim. Como quiero, recibo un modelo entrenado y documentos de vectores para los dos documentos. Sin embargo, me gustaría saber los beneficios de volver a entrenar el modelo en varias épocas y cómo hacerlo en Gensim. […]

¿Podemos usar un corpus hecho por nosotros mismos para entrenar para LDA usando gensim?

Tengo que aplicar LDA (Asignación de Dirichlet Latente) para obtener los posibles temas de una base de datos de 20,000 documentos que recopilé. ¿Cómo puedo usar estos documentos en lugar del otro corpus disponible como Brown Corpus o la Wikipedia en inglés como corpus de entrenamiento? Puede consultar esta página.

Cómo manejar palabras que no están en el vocabulario de word2vec de manera óptima

Tengo una lista de ~ 10 millones de oraciones, donde cada una de ellas contiene hasta 70 palabras. Estoy ejecutando gensim word2vec en cada palabra y luego tomando el promedio simple de cada oración. El problema es que uso min_count = 1000, por lo que muchas palabras no están en el vocabulario. Para resolver eso, […]

Deshabilitar la eliminación de puntuación de Gensim, etc. al analizar un corpus wiki

Quiero entrenar un modelo word2vec en la wikipedia en inglés usando python con gensim. Seguí de cerca https://groups.google.com/forum/#!topic/gensim/MJWrDw_IvXw para eso. Funciona para mí, pero lo que no me gusta del modelo resultante de word2vec es que las entidades con nombre se dividen, lo que hace que el modelo sea inutilizable para mi aplicación específica. El […]

Python Gensim: ¿cómo calcular la similitud de documentos utilizando el modelo LDA?

Tengo un modelo LDA entrenado y quiero calcular la puntuación de similitud entre dos documentos del corpus en el que entrené a mi modelo. Después de estudiar todos los tutoriales y funciones de Gensim, todavía no puedo entenderlo. ¿Alguien puede darme una pista? ¡Gracias!

ImportError: Ningún módulo llamado py31compat

estoy tratando de instalar gensim usando sudo -H pip install –upgrade gensim pero me está dando este error: File “setup.py”, line 301, in include_package_data=True, File “/usr/lib/python2.7/distutils/core.py”, line 151, in setup dist.run_commands() File “/usr/lib/python2.7/distutils/dist.py”, line 953, in run_commands self.run_command(cmd) File “/usr/lib/python2.7/distutils/dist.py”, line 972, in run_command cmd_obj.run() File “/usr/local/lib/python2.7/dist-packages/setuptools/command /install.py”, line 67, in run self.do_egg_install() File “/usr/local/lib/python2.7/dist-packages/setuptools/command […]

¿Cómo interpretar los resultados de Clusters después de usar Doc2vec?

Estoy utilizando doc2vec para convertir los primeros 100 tweets de mis seguidores en representación vectorial (por ejemplo, v1 ….. v100). Después de eso estoy usando la representación vectorial para hacer los grupos de K-medias. model = Doc2Vec(documents=t, size=100, alpha=.035, window=10, workers=4, min_count=2) Puedo ver que el grupo 0 está dominado por algunos valores (por ejemplo, […]

¿Cómo obtener antónimos a través de word2vec?

Actualmente estoy trabajando en el modelo word2vec usando gensim en Python, y quiero escribir una función que pueda ayudarme a encontrar los antónimos y sinónimos de una palabra determinada. Por ejemplo: antonimo (“triste”) = “feliz” sinónimo (“molesto”) = “enfurecido” ¿Hay una manera de hacer eso en word2vec?