Articles of procesamiento de texto en

Dividir texto en párrafos donde los delimitadores de párrafos no son estándar

Si tengo texto con formato de párrafo estándar (una línea en blanco seguida de una sangría) como el texto 1, es bastante fácil extraer los párrafos usando text.split (“\ n \ n”). Texto 1: Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus sit amet sapien velit, ac sodales ante. Integer mattis eros non turpis […]

Eliminar Chars en Python

¿Alguien sabe cómo eliminar todos los caracteres detrás de un personaje específico? Me gusta esto: http://google.com/translate_t dentro http://google.com

Cómo usar os.walk para listar solo archivos de texto

Esta pregunta fue similar al abordar los tipos de archivos ocultos. Estoy teniendo problemas con un problema similar porque necesito procesar solo el texto que contiene archivos en carpetas que tienen muchos tipos diferentes de archivos: imágenes, texto, música. Estoy utilizando os.walk, que enumera TODO, incluidos los archivos sin archivos de icono similares a una […]

Extraer información de grandes archivos de texto estructurado

Necesito leer algunos archivos grandes (de 50k a 100k líneas), estructurados en grupos separados por líneas vacías. Cada grupo comienza con el mismo patrón “No.999999999 dd / mm / aaaa ZZZ”. Aquí hay algunos datos de muestra. No. 813829461 16/09/1987 270 Tit.SUZANO PAPEL E CELULOSE SA (BR / BA) CNPJ / CIC / N INPI: […]

Python: Cómo recorrer bloques de líneas

¿Cómo pasar por bloques de líneas separadas por una línea vacía? El archivo se parece a lo siguiente: ID: 1 Name: X FamilyN: Y Age: 20 ID: 2 Name: H FamilyN: F Age: 23 ID: 3 Name: S FamilyN: Y Age: 13 ID: 4 Name: M FamilyN: Z Age: 25 Quiero recorrer los bloques y […]