Articles of xml parsing

Python para analizar un archivo XML no estándar

Mi archivo de entrada es en realidad múltiples archivos XML que se agregan a un archivo. (Es de Google Patents ). Tiene debajo de la estructura: … … … Python xml.dom.minidom no puede analizar este archivo no estándar. ¿Cuál es una mejor manera de analizar este archivo? No estoy debajo del código tiene buen rendimiento […]

Python cómo quitar los espacios en blanco de los nodos de texto xml

Tengo un archivo xml de la siguiente manera My Name My Address La etiqueta tiene nuevas líneas adicionales. ¿Hay alguna forma rápida en Pythonic para recortar esto y generar un nuevo xml? Encontré esto pero recorta solo lo que está entre las tags y no el valor https://skyl.org/log/post/skyl/2010/04/remove-insignificant-whitespace-from-xml-string-with-python/ Actualización 1 – Manejar el siguiente xml […]

Python: acceda a los niños nesteds en un archivo xml analizado con ElementTree

Soy nuevo en el análisis XML. Este archivo xml tiene el siguiente árbol: FHRSEstablishment |–> Header | |–> … |–> EstablishmentCollection | |–> EstablishmentDetail | | |–>… | |–> Scores | | |–>… |–> EstablishmentCollection | |–> EstablishmentDetail | | |–>… | |–> Scores | | |–>… pero cuando accedo a él con ElementTree y […]

¿Cómo almacenar de manera eficiente este documento XML analizado en la base de datos MySQL usando Python?

A continuación se muestra el archivo XML: book.xml Sample XML Book Benjamin Smith A First Chapter B 783 . Third Chapter B 59 . XML Master John Doe C Second Chapter K 54 . Third Chapter K 328 . Seventh Chapter K 265 . Ninth Chapter K 356 . A continuación se muestra el código […]

Diferencia entre si y si no es Ninguno

Al escribir un código de análisis XML, recibí la advertencia: FutureWarning: The behavior of this method will change in future versions. Use specific ‘len(elem)’ or ‘elem is not None’ test instead. donde utilicé if : para verificar si se encontró un valor para un elemento dado. ¿Alguien puede explicar la diferencia entre if : vs […]

Extrae elementos del archivo XML usando Python

El siguiente enlace nos da la lista de ingredientes en la lista de recipientes. Me gustaría extraer los nombres del ingrediente y guardarlo en otro archivo usando python. http://stream.massey.ac.nz/file.php/6087/Eva_Material/Tutorials/recipebook.xml Hasta ahora he intentado usar el siguiente código, pero me da la receta completa, no los nombres de los ingredientes: from xml.sax.handler import ContentHandler import xml.sax […]

¿Cómo convertir la configuración de trabajo de jenkins config.xml al formato YAML en python para usar jenkins-job-builder?

jenkins-job-builder es una buena herramienta que me ayuda a mantener trabajos en archivos YAML . Ver ejemplo en el capítulo de configuración . Ahora que tenía muchos trabajos jenkins antiguos, sería bueno tener un script de python xml2yaml para convertir el xml2yaml de xml2yaml jenkins existente config.xml al formato de archivo YAML . ¿Alguna sugerencia […]

Analice de forma iterativa un archivo XML grande sin utilizar el enfoque DOM

Tengo un archivo xml . . Quiero leer el archivo xml para cada etiqueta de correo electrónico. Es decir, en un momento en el que quiero leer el ID del correo electrónico = 1.. Extraer el cuerpo del mismo, el ID del correo electrónico leído = 2 … y extraer el cuerpo del mismo … […]

Encontrar un subnodo DOM no recursivo en Python usando BeautifulSoup

¿Hay alguna forma de encontrar un subnodo DOM no recursivo en Python usando BeautifulSoup ? Por ejemplo, considere analizar un archivo pom.xml : com.parent parent 1.0-SNAPSHOT ../pom.xml 2.0.0 com.parent.somemodule some_module jar 1.0-SNAPSHOT Some Module … Si quiero obtener groupId en el nivel superior (específicamente project->groupId , no project->parent->groupId ), uso: with open(pom) as pomHandle: soup […]

Declaración XML standalone = “sí” lxml

Tengo un xml que estoy analizando, haciendo algunos cambios y guardando en un nuevo archivo. Tiene la statement Que me gustaría conservar. Cuando estoy guardando mi nuevo archivo, estoy perdiendo el bit standalone=”yes” . ¿Cómo puedo mantenerlo? Aquí está mi código: templateXml = “”” Some Data Some Other Data “”” from lxml import etree tree […]