Articles of tokenize

¿Puede una línea de código Python conocer su nivel de anidación de sangría?

De algo como esto: print(get_indentation_level()) print(get_indentation_level()) print(get_indentation_level()) Me gustaría obtener algo como esto: 1 2 3 ¿Se puede leer el código de esta manera? Todo lo que quiero es que la salida de las partes más anidadas del código esté más anidada. De la misma manera que hace que el código sea más fácil de […]

error de archivo zip incorrecto en el etiquetado de POS en NLTK en python

Soy nuevo en Python y NLTK … Quiero hacer tokenización de palabras y etiquetado POS en esto. Instalé Nltk 3.0 en mi Ubuntu 14.04 teniendo un python predeterminado 2.7.6. Primero intenté hacer tokenización de una oración simple. Pero yo Estoy recibiendo un error, diciendo que “BadZipfile: File no es un archivo zip” .¿Cómo resolver esto? […]

Python: Tokenizing con frases

Tengo bloques de texto que quiero tokenize, pero no quiero tokenize en espacios en blanco y puntuación, ya que parece ser el estándar con herramientas como NLTK . Hay frases particulares que quiero que se tokenen como un solo token, en lugar de la tokenización normal. Por ejemplo, dada la frase “The West Wing es […]

Convertir la fórmula de legibilidad en función python

Me dieron esta fórmula llamada FRES (prueba de facilidad de lectura de Flesch) que se usa para medir la legibilidad de un documento: Mi tarea es escribir una función de python que devuelve los FRES de un texto. Por lo tanto, necesito convertir esta fórmula en una función python. Reimplementé mi código a partir de […]

Relleno de múltiples personajes con espacio – python

En perl , puedo hacer lo siguiente con mis símbolos de puntuación con espacios: s/([،;؛¿!”\])}»›”؟%٪°±©®।॥…])/ $1 /g;` En Python , he intentado esto: >>> p = u’،;؛¿!”\])}»›”؟%٪°±©®।॥…’ >>> text = u”this, is a sentence with weird» symbols… appearing everywhere¿” >>> for i in p: … text = text.replace(i, ‘ ‘+i+’ ‘) … >>> text u’this, […]

¿Cómo usar el CountVectorizerand () de sklearn para obtener ngrams que incluyan cualquier puntuación como tokens separados?

Yo uso sklearn.feature_extraction.text.CountVectorizer para calcular n-grams. Ejemplo: import sklearn.feature_extraction.text # FYI http://scikit-learn.org/stable/install.html ngram_size = 4 string = [“I really like python, it’s pretty awesome.”] vect = sklearn.feature_extraction.text.CountVectorizer(ngram_range=(ngram_size,ngram_size)) vect.fit(string) print(‘{1}-grams: {0}’.format(vect.get_feature_names(), ngram_size)) salidas: 4-grams: [u’like python it pretty’, u’python it pretty awesome’, u’really like python it’] Se elimina la puntuación: ¿cómo incluirlos como fichas separadas?

¿Cómo uso el tokenizer predeterminado de NLTK para obtener tramos en lugar de cadenas?

El tokenizer predeterminado de NLTK, nltk.word_tokenizer, encadena dos tokenizadores, un tokenizador de oraciones y luego un tokenizador de palabras que funciona con oraciones. Hace un buen trabajo fuera de la caja. >>> nltk.word_tokenize(“(Dr. Edwards is my friend.)”) [‘(‘, ‘Dr.’, ‘Edwards’, ‘is’, ‘my’, ‘friend’, ‘.’, ‘)’] Me gustaría usar este mismo algoritmo, excepto para que devuelva […]

Tokenizing Unicode usando nltk

Tengo archivos de texto que utilizan la encoding utf-8 que contiene caracteres como ‘ö’, ‘ü’, etc. Me gustaría analizar el texto de estos archivos, pero no consigo que el tokenizador funcione correctamente. Si utilizo el tokenizer estándar de nltk: f = open(‘C:\Python26\text.txt’, ‘r’) # text = ‘müsli pöök rääk’ text = f.read() f.close items = […]

word_tokenize TypeError: cadena esperada o búfer

Al llamar a word_tokenize me sale el siguiente error: File “C:\Python34\lib\site-packages\nltk\tokenize\punkt.py”, line 1322, in _slices_from_text for match in self._lang_vars.period_context_re().finditer(text): TypeError: expected string or buffer Tengo un archivo de texto grande (1500.txt) del que quiero eliminar las palabras vacías. Mi código es el siguiente: from nltk.corpus import stopwords from nltk.tokenize import word_tokenize with open(‘E:\\Book\\1500.txt’, “r”, encoding=’ISO-8859-1′) […]

¿Cómo deshacerse de la puntuación utilizando el tokenizador NLTK?

Estoy empezando a usar NLTK y no entiendo bien cómo obtener una lista de palabras del texto. Si uso nltk.word_tokenize() , obtengo una lista de palabras y puntuación. Sólo necesito las palabras en su lugar. ¿Cómo puedo deshacerme de la puntuación? Además, word_tokenize no funciona con varias oraciones: se agregan puntos a la última palabra.