Articles of parsing

¿Cómo detectar con Python si la cadena contiene código html?

¿Cómo detectar si la cadena contiene un html (puede ser html4, html5, solo parciales de html dentro del texto)? No necesito una versión de HTML, sino que si la cadena es solo un texto o contiene un html. El texto es típicamente multilínea con líneas también vacías Actualizar: entradas de ejemplo: html: I’m title Hello, […]

Escribiendo / analizando un archivo de ancho fijo usando Python

Soy un novato en Python y estoy considerando usarlo para escribir algunas cosas EDI peludas que nuestro proveedor requiere. Básicamente, necesitan un archivo de texto de ancho fijo de 80 caracteres, con ciertos “fragmentos” del campo con datos y otros en blanco. Tengo la documentación, así que sé cuál es la longitud de cada “fragmento”. […]

BeautifulSoup `find_all` generator

¿Hay alguna manera de convertir find_all en un generador más eficiente en memoria? Por ejemplo: Dado: soup = BeautifulSoup(content, “html.parser”) return soup.find_all(‘item’) Me gustaría utilizar en su lugar: soup = BeautifulSoup(content, “html.parser”) while True: yield soup.next_item_generator() ( StopIteration entrega correcta de la excepción final de StopIteration ) Hay algunos generadores incorporados, pero no para obtener […]

API duckduckgo no devuelve resultados

Editar Ahora me doy cuenta de que la API es simplemente inadecuada y ni siquiera funciona. Me gustaría redirigir mi pregunta, quiero poder buscar automáticamente duckduckgo usando su “Me siento patito”. Así que puedo buscar “stackoverflow” por ejemplo y obtener la página principal (” https://stackoverflow.com/ “) como mi resultado. Estoy usando la API duckduckgo. aquí […]

Analizar y generar archivos de Microsoft Office 2007 (.docx, .xlsx, .pptx)

Tengo un proyecto web en el que debo importar texto e imágenes de un documento proporcionado por el usuario, y uno de los formatos posibles es Microsoft Office 2007. También es necesario generar documentos en este formato. El servidor ejecuta CentOS 5.2 y tiene PHP / Perl / Python instalado. Puedo ejecutar binarios locales y […]

Python, cómo analizar cadenas para parecerse a sys.argv

Me gustaría analizar una cadena como esta: -o 1 –long “Some long string” dentro de esto: [“-o”, “1”, “–long”, ‘Some long string’] o similar. Esto es diferente a cualquiera de getopt o optparse, que comienza con la entrada analizada de sys.argv (como la salida que tengo arriba). ¿Hay una manera estándar de hacer esto? Básicamente, […]

analizando excel documentos con python

Quiero analizar el documento de Excel a las listas en Python. ¿Hay alguna biblioteca de python que sea útil para esta acción? ¿Y qué funciones son relevantes en esa biblioteca?

¿Cómo puedo analizar una cadena de fecha HTTP en Python?

¿Hay una manera fácil de analizar cadenas de fecha HTTP en Python? Según el estándar , hay varias formas de formatear cadenas de fecha HTTP; El método debería ser capaz de manejar esto. En otras palabras, quiero convertir una cadena como “Mié, 23 de septiembre de 2009 22:15:29 GMT” a una estructura de tiempo de […]

¿Cómo obtener todo después de la última barra en una URL?

¿Cómo puedo extraer lo que sigue a la última barra diagonal en una URL en Python? Por ejemplo, estas URL deben devolver lo siguiente: URL: http://www.test.com/TEST1 returns: TEST1 URL: http://www.test.com/page/TEST2 returns: TEST2 URL: http://www.test.com/page/page/12345 returns: 12345 He intentado urlparse, pero eso me da el nombre completo de la ruta, como page/page/12345 .

raíz del archivo xml se da como NINGUNA por qué?

from elementtree import ElementTree as ET tree= ET.parse(r’N:\myinternwork\files xml of bus systems\testonieeebus.xml’,’r’) root= tree.getroot() print(root) Ahora el error está en la salida, ya que no da ninguno. Giada De Laurentiis