Articles of texto

scikit learn output metrics.classification_report en formato CSV / tab-delimited

Estoy haciendo una clasificación de texto multiclase en Scikit-Learn. El conjunto de datos está siendo entrenado usando el clasificador Multinomial Naive Bayes que tiene cientos de tags. Aquí hay un extracto del script de Scikit Learn para ajustar el modelo MNB from __future__ import print_function # Read **`file.csv`** into a pandas DataFrame import pandas as […]

Manejo de errores de Unicode con líneas de lectura de Python 3 ()

Sigo recibiendo este error mientras leo un archivo de texto. ¿Es posible manejarlo / ignorarlo y proceder? UnicodeEncodeError: el codec ‘charmap’ no puede decodificar el byte 0x81 en la posición 7827: el carácter se asigna a no definido.

anexando a una línea existente en un archivo txt

Tengo un progtwig para almacenar el nombre de una persona y su puntuación, en un archivo txt en python. por ejemplo este es mi código actual: name = input(“Name: “) score = input(“Score: “) file_name = “student_scores.txt” file = open(file_name , ‘a’) file.write(str(name) + “, ” + str(score) + “\n”) file.close() El archivo txt de […]

Procesando archivos de texto repetidamente estructurados con python

Tengo un gran archivo de texto estructurado en bloques como: Student = { PInfo = { ID = 0001; Name.First = “Joe”; Name.Last = “Burger”; DOB = “01/01/2000”; }; School = “West High”; Address = { Str1 = “001 Main St.”; Zip = 12345; }; }; Student = { PInfo = { ID = 0002; […]

Cómo extraer información entre dos palabras únicas en un archivo de texto grande

Tengo unos 150 archivos de texto llenos de información de caracteres. Cada archivo contiene dos palabras únicas () alpha y bravo y quiero extraer el texto entre estas palabras únicas y escribirlo en un archivo diferente. Manualmente puedo presionar CTRL + F para las dos palabras y copiar el texto entre ellas, solo quiero saber […]

Renderizar texto suavizado en superficie transparente en pygame

Estoy haciendo una función que toma una cadena y la divide en líneas y devuelve una superficie con cada línea representada debajo de la anterior. Por ejemplo: Line1\nLine 2 Se convierte en: Line1 Line2 De todos modos, mi problema es que no puedo devolver una superficie transparente adecuada a la función de llamada. He intentado […]

Leer en tupla de listas de archivo de texto como tupla, no cadena – Python

Tengo un archivo de texto que me gustaría leer que contiene filas de tuplas. Cada tupla / fila en el texto tiene la forma de (‘cadena de descripción’, [lista de enteros 1], [lista de enteros 2]). Donde el archivo de texto puede verse algo como: (‘artículo 1’, [1,2,3,4], [4,3,2,1]) (‘item 2’, [], [4,3,2,1]) (‘item 3, […]

Cómo verificar si una lista de cadenas está presente en dos archivos separados

Tengo dos archivos, el “Archivo A” es una lista de direcciones IP con las correspondientes direcciones MAC en la misma línea. “Archivo B” es una lista de solo direcciones MAC. Necesito comparar los dos archivos y listar las líneas del archivo A que no tienen direcciones MAC encontradas en el archivo B. PRESENTAR UN: 172.0.0.1 […]

En Python, ¿cómo decodifico la encoding GZIP?

Descargué una página web en mi script de python. En la mayoría de los casos, esto funciona bien. Sin embargo, este tenía un encabezado de respuesta: encoding GZIP, y cuando intenté imprimir el código fuente de esta página web, tenía todos los símbolos en mi masilla. ¿Cómo decodificar esto a texto regular?

obtener índices del texto original de nltk word_tokenize

Estoy tokenizing un texto usando nltk.word_tokenize y me gustaría también obtener el índice en el texto original sin procesar al primer carácter de cada token, es decir import nltk x = ‘hello world’ tokens = nltk.word_tokenize(x) >>> [‘hello’, ‘world’] ¿Cómo puedo obtener la matriz [0, 7] correspondiente a los índices en bruto de los tokens?