Articles of tokenize

Tokenize ejemplos de código fuente de Python (en Python)

Buscando ganar entendimiento en el módulo tokenize de Python. Estoy interesado en llamar al método tokenize.tokenize en un archivo fuente Python dado (como el que se muestra a continuación) y obtener su salida tokenizada con la tupla 5 como se menciona en los documentos. # Python source file import os class Test(): “”” This class […]

Insertar texto entre líneas de archivo en python

Tengo un archivo que estoy leyendo actualmente usando fo = open(“file.txt”, “r”) Entonces haciendo file = open(“newfile.txt”, “w”) file.write(fo.read()) file.write(“Hello at the end of the file”) fo.close() file.close() Básicamente copio el archivo a uno nuevo, pero también agrego un poco de texto al final del archivo recién creado. ¿Cómo podría insertar esa línea, por ejemplo, […]

Tokenización de texto no inglés en Python

Tengo un archivo de texto persa que tiene algunas líneas como esta: ذوب 6 خوی 7 بزاق ،آب‌دهان ، یم 10 زهاب، 11 آبرو، حیثیت، شرف Quiero generar una lista de palabras de esta línea. Para mí, los bordes de las palabras son números, como 6, 7, etc. en la línea anterior y también el […]

tokenizar una cadena manteniendo delimitadores en Python

¿Hay algún equivalente a str.split en Python que también devuelva los delimitadores? Necesito preservar el diseño del espacio en blanco para mi salida después de procesar algunos de los tokens. Ejemplo: >>> s=”\tthis is an example” >>> print s.split() [‘this’, ‘is’, ‘an’, ‘example’] >>> print what_I_want(s) [‘\t’, ‘this’, ‘ ‘, ‘is’, ‘ ‘, ‘an’, ‘ […]

Tokenización de palabras árabes utilizando NLTK

Estoy usando word_tokenizer para dividir una oración en palabras. Quiero tokenizar esta frase: في_بيتنا كل شي لما تحتاجه يضيع …ادور على شاحن فجأة يختفي ..لدرجة اني اسوي نفسي ادور شيء El código que estoy escribiendo es: import re import nltk lex = u” في_بيتنا كل شي لما تحتاجه يضيع …ادور على شاحن فجأة يختفي ..لدرجة […]

¿Puede una línea de código Python conocer su nivel de anidación de sangría?

De algo como esto: print(get_indentation_level()) print(get_indentation_level()) print(get_indentation_level()) Me gustaría obtener algo como esto: 1 2 3 ¿Se puede leer el código de esta manera? Todo lo que quiero es que la salida de las partes más anidadas del código esté más anidada. De la misma manera que hace que el código sea más fácil de […]

error de archivo zip incorrecto en el etiquetado de POS en NLTK en python

Soy nuevo en Python y NLTK … Quiero hacer tokenización de palabras y etiquetado POS en esto. Instalé Nltk 3.0 en mi Ubuntu 14.04 teniendo un python predeterminado 2.7.6. Primero intenté hacer tokenización de una oración simple. Pero yo Estoy recibiendo un error, diciendo que “BadZipfile: File no es un archivo zip” .¿Cómo resolver esto? […]

Python: Tokenizing con frases

Tengo bloques de texto que quiero tokenize, pero no quiero tokenize en espacios en blanco y puntuación, ya que parece ser el estándar con herramientas como NLTK . Hay frases particulares que quiero que se tokenen como un solo token, en lugar de la tokenización normal. Por ejemplo, dada la frase “The West Wing es […]

Convertir la fórmula de legibilidad en función python

Me dieron esta fórmula llamada FRES (prueba de facilidad de lectura de Flesch) que se usa para medir la legibilidad de un documento: Mi tarea es escribir una función de python que devuelve los FRES de un texto. Por lo tanto, necesito convertir esta fórmula en una función python. Reimplementé mi código a partir de […]

Relleno de múltiples personajes con espacio – python

En perl , puedo hacer lo siguiente con mis símbolos de puntuación con espacios: s/([،;؛¿!”\])}»›”؟%٪°±©®।॥…])/ $1 /g;` En Python , he intentado esto: >>> p = u’،;؛¿!”\])}»›”؟%٪°±©®।॥…’ >>> text = u”this, is a sentence with weird» symbols… appearing everywhere¿” >>> for i in p: … text = text.replace(i, ‘ ‘+i+’ ‘) … >>> text u’this, […]