Articles of texto de

Convirtiendo / analizando programáticamente el código LaTeX a texto plano

Tengo un par de proyectos de código en C ++ / Python en los que se utilizan descripciones y tags en formato LaTeX para generar documentación en PDF o gráficos hechos con pstricks LaTeX +. Sin embargo, también tenemos algunos resultados de texto sin formato, como una versión HTML de la documentación (ya tengo código […]

Insertar texto en un archivo de texto siguiendo un texto específico usando Python

Tengo que editar algunos archivos de texto para incluir nueva información, pero necesitaré insertar esa información en ubicaciones específicas en el archivo según el texto que lo rodea. Esto no funciona como lo necesito para: with open(full_filename, “r+”) as f: lines = f.readlines() for line in lines: if ‘identifying text’ in line: offset = f.tell() […]

Eliminar líneas específicas de un archivo de texto grande en python

Tengo varios archivos de texto de texto grandes que todos tienen la misma estructura y quiero eliminar las 3 primeras líneas y luego eliminar los caracteres ilegales de la 4ª línea. No quiero tener que leer el conjunto de datos completo y luego modificarlo, ya que cada archivo tiene más de 100 MB con más […]

Python lee líneas específicas de texto entre dos cadenas

Tengo problemas para que Python lea líneas específicas. En lo que estoy trabajando es algo como esto: lines of data not needed lines of data not needed lines of data not needed ————————————– ***** REPORT 1 ***** ————————————– [key] lines of interest are here [key] lines of interest are here [key] lines of interest are […]

Extraer texto tras etiqueta en el ElementTree de Python

Aquí hay una parte de XML: Picture of a cat Extraer la etiqueta es fácil. Solo haz: et = xml.etree.ElementTree.fromstring(our_xml_string) img = et.find(‘img’) Pero, ¿cómo obtener el texto inmediatamente después ( Imagen de un gato )? Hacer lo siguiente devuelve una cadena en blanco: print et.text

Procesando archivos grandes en Python

Digamos que tengo un archivo de texto de 1000 GB. Necesito encontrar las veces que aparece una frase en el texto. ¿Hay alguna forma más rápida de hacer esto que la que estoy usando abajo? ¿Cuánto costaría completar la tarea? phrase = “how fast it is” count = 0 with open(‘bigfile.txt’) as f: for line […]

Python al final de la coma después de la impresión ejecuta la siguiente instrucción

Si se agrega una coma al final de una statement de impresión, la siguiente instrucción se ejecuta primero. ¿Por qué es esto? Por ejemplo, esto ejecuta 10000 ** 10000 antes de imprimir “Hi ” : print “Hi”, print 10000 ** 10000 Y esto toma un tiempo antes de imprimir “Hola Hola”: def sayHello(): for i […]

Eliminando espacios que no se rompen de las cadenas usando Python

Estoy teniendo algunos problemas con un problema de cadena muy básico en Python (que no puedo entender). Básicamente, estoy tratando de hacer lo siguiente: ‘# read file into a string myString = file.read() ‘# Attempt to remove non breaking spaces myString = myString.replace(“\u00A0″,” “) ‘# however, when I print my string to output to console, […]

Cómo usar python-docx para reemplazar texto en un documento de Word y guardar

El módulo oodocx mencionado en la misma página remite al usuario a una carpeta / examples que no parece estar allí. He leído la documentación de python-docx 0.7.2, además de todo lo que pude encontrar en Stackoverflow sobre el tema, así que, por favor, crea que he hecho mi “tarea”. Python es el único idioma […]

Extraiga el nombre entre una palabra y una coma del texto con expresiones regulares

Tengo miles de archivos .txt con un texto grande. Quiero extraer alguna información de estos archivos, como algunos nombres, números y fechas. Hay campos que siguen un patrón para poder extraer la información, pero otros no. Adjunto tres ejemplos de texto. El problema viene cuando necesito extraer el nombre del creador de una compañía y […]