Articles of n gram

contando la frecuencia de n-gram en Python nltk

tengo el siguiente código. Sé que puedo usar la función apply_freq_filter para filtrar colocaciones que son menores que un conteo de frecuencia. Sin embargo, no sé cómo obtener las frecuencias de todas las tuplas n-gram (en mi caso bi-gramo) en un documento, antes de decidir qué frecuencia configurar para el filtrado. Como puede ver, estoy […]

Python rellena un objeto / diccionario con varias teclas

Tengo una lista de 4 gramos con la que quiero rellenar un objeto de diccionario / objeto shevle con: [‘I’,’go’,’to’,’work’] [‘I’,’go’,’there’,’often’] [‘it’,’is’,’nice’,’being’] [‘I’,’live’,’in’,’NY’] [‘I’,’go’,’to’,’work’] Para que tengamos algo como: four_grams[‘I’][‘go’][‘to’][‘work’]=1 y cualquier 4 gramos recién encontrado se rellena con sus cuatro claves, con el valor 1, y su valor se incrementa si se vuelve a […]

¿Cómo usar el CountVectorizerand () de sklearn para obtener ngrams que incluyan cualquier puntuación como tokens separados?

Yo uso sklearn.feature_extraction.text.CountVectorizer para calcular n-grams. Ejemplo: import sklearn.feature_extraction.text # FYI http://scikit-learn.org/stable/install.html ngram_size = 4 string = [“I really like python, it’s pretty awesome.”] vect = sklearn.feature_extraction.text.CountVectorizer(ngram_range=(ngram_size,ngram_size)) vect.fit(string) print(‘{1}-grams: {0}’.format(vect.get_feature_names(), ngram_size)) salidas: 4-grams: [u’like python it pretty’, u’python it pretty awesome’, u’really like python it’] Se elimina la puntuación: ¿cómo incluirlos como fichas separadas?

Python NLTK: Bigrams trigrams fourgrams

Tengo este ejemplo y quiero saber cómo obtener este resultado. Tengo texto y lo tokenize luego colecciono el bigtwig y el trigtwig y fourgram así. import nltk from nltk import word_tokenize from nltk.util import ngrams text = “Hi How are you? i am fine and you” token=nltk.word_tokenize(text) bigrams=ngrams(token,2) bigrams: [(‘Hi’, ‘How’), (‘How’, ‘are’), (‘are’, ‘you’), […]

n-grams con clasificador Naive Bayes

Soy nuevo en Python y necesito ayuda! Estaba practicando con la clasificación de texto Python NLTK. Aquí está el ejemplo de código que estoy practicando en http://www.laurentluce.com/posts/twitter-sentiment-analysis-using-python-and-nltk/ He probado este from nltk import bigrams from nltk.probability import ELEProbDist, FreqDist from nltk import NaiveBayesClassifier from collections import defaultdict train_samples = {} with file (‘positive.txt’, ‘rt’) as […]

¿Existe alguna alternativa para el módulo ‘nltk.model.NGramModel’ que se eliminó ahora?

He estado tratando de encontrar una alternativa por dos días seguidos, y no pude encontrar nada relevante. Básicamente, estoy tratando de obtener una puntuación probabilística de una oración sintetizada (sintetizada al reemplazar algunas palabras de una oración original seleccionada de los corpus). Intenté Colocaciones, pero las puntuaciones que estoy obteniendo no son muy útiles. Así […]

¿Cómo calcular skipgrams en python?

Un k skipgram es un ngram que es un superconjunto de todos los ngrams y cada (ki) skipgram till (ki) == 0 (que incluye 0 omitir gramos). Entonces, ¿cómo calcular de forma eficiente estos diagtwigs en python? A continuación se muestra el código que probé pero no funciona como se esperaba: input_list = [‘all’, ‘this’, […]

Cálculo rápido de n-gtwigs

Estoy usando NLTK para buscar n-grams en un corpus pero en algunos casos está demorando mucho tiempo. Me he dado cuenta de que calcular n-grams no es una característica poco común en otros paquetes (al parecer, Haystack tiene alguna funcionalidad para ello). ¿Esto significa que hay una forma potencialmente más rápida de encontrar n-gtwigs en […]

Cálculo de N gramos usando Python

Necesitaba calcular los Unigrams, BiGrams y Trigrams para un archivo de texto que contenga texto como: “La fibrosis quística afecta a 30,000 niños y adultos jóvenes solo en los EE. UU. Inhalar las nieblas de agua salada puede reducir el pus y la infección que llena las vías respiratorias de quienes padecen fibrosis quística, aunque […]