He creado una matriz tf-idf pero ahora quiero recuperar las 2 palabras principales para cada documento. Quiero pasar la identificación del documento y debería darme las 2 palabras principales. En este momento, tengo estos datos de muestra: from sklearn.feature_extraction.text import TfidfVectorizer d = {‘doc1′:”this is the first document”,’doc2’:”it is a sunny day”} ### corpus test_v […]
Quiero convertir documentos de texto en vectores de características usando tf-idf, y luego entrenar un algoritmo de Bayes ingenuo para clasificarlos. Puedo cargar fácilmente mis archivos de texto sin las tags y usar HashingTF () para convertirlo en un vector, y luego usar IDF () para ponderar las palabras de acuerdo a lo importante que […]
Tengo un dataframe de pandas con text columna que consta de news articles de news articles . Dado como: text article1 article2 article3 article4 He calculado los valores Tf-IDF para los artículos como: from sklearn.feature_extraction.text import TfidfVectorizer tfidf = TfidfVectorizer() matrix_1 = tfidf.fit_transform(df[‘text’]) Como mi dataframe se mantiene actualizado de vez en cuando. Entonces, digamos […]
Estoy tratando de modificar los resultados en esta publicación (Cómo obtener las predicciones Top 3 o Top N usando el SGDClassifier de sklearn) para obtener el índice de precisión, sin embargo, obtengo un índice de precisión de cero y no puedo entender por qué. ¿Alguna idea? ¡Cualquier pensamiento / edición sería muy apreciado! Gracias. from […]
Estoy tratando de usar un vocabulario personalizado en scikit-learn para algunas tareas de clustering y estoy obteniendo resultados muy extraños. El progtwig se ejecuta correctamente cuando no se usa un vocabulario personalizado y estoy satisfecho con la creación del clúster. Sin embargo, ya he identificado un grupo de palabras (alrededor de 24,000) que me gustaría […]
Soy nuevo en scikit-learn, y estaba usando TfidfVectorizer para encontrar los valores tfidf de los términos en un conjunto de documentos. Utilicé el siguiente código para obtener el mismo. vectorizer = TfidfVectorizer(stop_words=u’english’,ngram_range=(1,5),lowercase=True) X = vectorizer.fit_transform(lectures) Ahora, si imprimo X, puedo ver todas las entradas en la matriz, pero ¿cómo puedo encontrar las mejores n entradas […]
Tengo un archivo csv como col1 col2 col3 some text someID some value some text someID some value en cada fila, col1 corresponde al texto de un documento completo. Me gustaría crear un corpus a partir de este csv. mi objective es utilizar TfidfVectorizer de sklearn para calcular la similitud de documentos y la extracción […]
Hay implementaciones de TF-IDF en scikit-learn y gensim . Existen implementaciones simples Implementación simple de N-Gram, tf-idf y la similitud de coseno en Python Para evitar reinventar la rueda, ¿Realmente no hay TF-IDF en NLTK? ¿Existen subpaquetes que podamos manipular para implementar TF-IDF en NLTK? Si hay como? En este blogpost, dice que NLTK no […]
from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer() vectorizer = vectorizer.fit(word_data) freq_term_mat = vectorizer.transform(word_data) from sklearn.feature_extraction.text import TfidfTransformer tfidf = TfidfTransformer(norm=”l2″) tfidf = tfidf.fit(freq_term_mat) Ttf_idf_matrix = tfidf.transform(freq_term_mat) voc_words = Ttf_idf_matrix.getfeature_names() print “The num of words = “,len(voc_words) cuando ejecuto el progtwig que contiene este fragmento de código, aparece el siguiente error: Seguimiento (última llamada más reciente): […]
Tengo una lista de vocabulario que incluye n-gtwigs de la siguiente manera. myvocabulary = [‘tim tam’, ‘jam’, ‘fresh milk’, ‘chocolates’, ‘biscuit pudding’] Quiero usar estas palabras para calcular los valores de TF-IDF. También tengo un diccionario de corpus como sigue (clave = número de receta, valor = receta). corpus = {1: “making chocolates biscuit pudding […]