Articles of analizando

Python – CSV: archivo grande con filas de diferentes longitudes

En resumen, tengo un archivo csv de 20,000,000 líneas que tiene diferentes longitudes de fila. Esto se debe a los registradores de datos arcaicos y formatos propietarios. Obtenemos el resultado final como un archivo csv en el siguiente formato. MI objective es insertar este archivo en una base de datos de postgres. ¿Cómo puedo hacer […]

Obtener valor de etiqueta html en python

Soy novato de python. Aquí está mi código trabajando en python 2.7.5 import urllib2 import sys url =”mydomain.com” usock = urllib2.urlopen(url) data = usock.read() usock.close() print data Conseguir un formato HTML así y funciona. Lo que quiero hacer es obtener valor desde la etiqueta . por ej. Necesito valor de datos de este ejemplo: Data […]

lxml cssselect Parsing

Tengo un documento con los siguientes datos: 1. A domesticated carnivorous mammal (Canis familiaris) related to the foxes and wolves and raised in a wide variety of breeds. Y quiero obtener todo dentro de la clase ds-list (sin las tags y ). Actualmente mi código es doc.cssselect(‘div.ds-list’) , pero todo esto se recupera en la […]

¿Cómo analizar archivos de más de 100 GB en Python?

Tengo archivos de texto con un tamaño de aproximadamente 100 Gb con el siguiente formato (con registros duplicados de líneas, ips y dominios): domain|ip yahoo.com|89.45.3.5 bbc.com|45.67.33.2 yahoo.com|89.45.3.5 myname.com|45.67.33.2 etc. Estoy tratando de analizarlos usando el siguiente código de Python, pero todavía tengo un error de memoria. ¿Alguien sabe una forma más óptima de analizar estos […]

Python: elevar SyntaxError con lineno

Estoy implementando un analizador para un lenguaje específico del dominio, y quiero poder generar un SyntaxError. ¿Cómo configuro el nombre de archivo, lineno y desplazamiento cuando subo esta excepción? excepción SyntaxError Se genera cuando el analizador encuentra un error de syntax. Esto puede ocurrir en una statement de importación, en una statement exec, en una […]

Obtención de la topología del modelo a partir de un modelo de Simulink

Me gustaría crear una estructura en Python que represente un modelo de Simulink. Soy consciente de al menos dos formas de hacerlo: analizando un archivo “.mdl” o utilizando la api de Matlab para comunicarse con el modelo. ¿Puedes recomendar buenas bibliotecas o APIs para hacer esto? En particular, necesito realizar algún procesamiento en un modelo […]

Análisis de listas TCL en Python

Necesito dividir las listas TCL delimitadas por el espacio entre llaves dobles … por ejemplo … OUTPUT = “””{{172.25.50.10:01:01-Ethernet 172.25.50.10:01:02-Ethernet {Traffic Item 1}}} {{172.25.50.10:01:02-Ethernet 172.25.50.10:01:01-Ethernet {Traffic Item 1}}}””” Esto debería analizar en … OUTPUT = [“””{{172.25.50.10:01:01-Ethernet 172.25.50.10:01:02-Ethernet {Traffic Item 1}}}”””, “””{{172.25.50.10:01:02-Ethernet 172.25.50.10:01:01-Ethernet {Traffic Item 1}}}”””] Yo he tratado… import re splitter = re.compile(‘}}\s+{{‘) splitter.split(OUTPUT) Sin […]

Cómo identificar saltos de página usando python-docx de docx

Tengo varios archivos .docx que contienen una serie de bloques de texto similares: archivos docx que contienen más de 300 comunicados de prensa de 1 a 2 páginas cada uno, que deben separarse en archivos de texto individuales. La única forma coherente de diferenciar entre artículos es que siempre hay y solo un salto de […]

Emita el análisis del archivo JSON multilínea usando Python

Estoy intentando analizar un archivo multilínea JSON utilizando la biblioteca json en Python 2.7. A continuación se muestra un archivo de ejemplo simplificado: { “observations”: { “notice”: [ { “copyright”: “Copyright Commonwealth of Australia 2015, Bureau of Meteorology. For more information see: http://www.bom.gov.au/other/copyright.shtml http://www.bom.gov.au/other/disclaimer.shtml”, “copyright_url”: “http://www.bom.gov.au/other/copyright.shtml”, “disclaimer_url”: “http://www.bom.gov.au/other/disclaimer.shtml”, “feedback_url”: “http://www.bom.gov.au/other/feedback” } ] } } Mi […]

pequeño lenguaje en python

Estoy escribiendo lo que ni siquiera podría llamarse un lenguaje en python. Actualmente tengo varios operadores: + , – , * , ^ , fac , @ , !! . fac calcula un factorial, @ devuelve el valor de una variable, !! establece una variable. El código está abajo. ¿Cómo podría escribir una manera de […]