Articles of xml parsing

Extraer texto tras etiqueta en el ElementTree de Python

Aquí hay una parte de XML: Picture of a cat Extraer la etiqueta es fácil. Solo haz: et = xml.etree.ElementTree.fromstring(our_xml_string) img = et.find(‘img’) Pero, ¿cómo obtener el texto inmediatamente después ( Imagen de un gato )? Hacer lo siguiente devuelve una cadena en blanco: print et.text

python xml.etree.ElementTree anexar al subelemento

Estoy tratando de usar xml.etree.ElementTree para analizar un archivo xml, encontrar una etiqueta específica, agregar un niño a esa etiqueta, agregar otro niño a la etiqueta recién creada y agregar texto al último niño. Mi XML: text1 text2 XML deseado: text1 text2 text3 Código actual: import xml.etree.ElementTree as ET tree = ET.parse(‘test.xml’) root = tree.getroot() […]

¿Cómo obtengo todo el contenido entre dos tags xml en Python?

Intento obtener todo el contenido entre una etiqueta xml de apertura y su contraparte de cierre. Obtener el contenido en casos directos como el title continuación es fácil, pero ¿cómo puedo obtener todo el contenido entre las tags si se utiliza contenido mixto y quiero conservar las tags internas ? Some testing stuff Some text […]

Error de validación de XML: Char 0x0 fuera del rango permitido.

¿Cómo manejo los caracteres no válidos para poder analizar a través de los datos en Python? Actualmente estoy usando una API REST para obtener datos de una fuente que produce datos en el formato XML. Sin embargo, los datos XML contienen estos caracteres: ¿¿ Cuando bash validar los datos, recibo el error en este punto […]

Analizar XML desde un archivo usando etree funciona cuando se lee una cadena, pero no un archivo

Soy un novato relativo a Python y SO. Tengo un archivo xml del que necesito extraer información. He estado luchando con esto durante varios días, pero creo que finalmente encontré algo que extraerá la información correctamente. Ahora estoy teniendo problemas para obtener la salida correcta. Aquí está mi código: from xml import etree node = […]

Parse el archivo XML en el objeto de Python

Tengo un archivo XML que se parece a esto: some filename.mp3 Gogo (after 3.0) 131 joint stereo 00:02:43 5,236,644 no good 44100 6255 ….. and so forth …… …. Quiero leerlo en un objeto python, algo así como una lista de diccionarios. Debido a que el marcado es absolutamente fijo, estoy tentado a usar expresiones […]

¿Cómo puedo acceder a los elementos XML con espacios de nombre usando BeautifulSoup?

Tengo un documento XML que se lee así: 4000 0 mi pregunta es ¿cómo puedo acceder a ellos utilizando una biblioteca como BeautifulSoup en python? xmlDom.web [“Web”]. ¿Total? ¿No funciona?

Problemas al analizar con el archivo xml muy grande de Python

Tengo un archivo xml grande (aproximadamente 84MB) que está en esta forma: … …. … Mi objective es extraer cada libro y obtener sus propiedades. Intenté analizarlo (como hice con otros archivos xml) de la siguiente manera: from xml.dom.minidom import parse, parseString fd = “myfile.xml” parser = parse(fd) ## other python code here pero el […]

¿Cómo hacer que BeautifulSoup 4 respete una etiqueta de cierre automático?

Esta pregunta es específica de BeautifulSoup4 , que la hace diferente de las preguntas anteriores: ¿Por qué BeautifulSoup está modificando mis elementos de cierre automático? selfClosingTags en BeautifulSoup Ya que BeautifulStoneSoup se ha ido (el analizador xml anterior), ¿cómo puedo hacer que bs4 respete una nueva etiqueta de cierre automático? Por ejemplo: import bs4 S […]

Error de syntax del carácter no ASCII

Estoy tratando de analizar xml que contiene algunos caracteres no ASCII, el código se ve a continuación from lxml import etree from lxml import objectify content = u’Order date : 05/08/2013 12:24:28′ mail.replace(‘\xa0′,’ ‘) xml = etree.fromstring(mail) pero me muestra un error en la línea ‘contenido = …’ como syntaxError: Non-ASCII character ‘\xc2’ in file […]