Articles of analizando

Análisis de archivos pcap con dpkt (Python)

Estoy tratando de analizar una traza capturada previamente para encabezados HTTP usando el módulo dpkt: import dpkt import sys f=file(sys.argv[1],”rb”) pcap=dpkt.pcap.Reader(f) for ts, buf in pcap: eth=dpkt.ethernet.Ethernet(buf) ip=eth.data tcp=ip.data if tcp.dport==80 and len(tcp.data)>0: try: http=dpkt.http.Request(tcp.data) print http.uri except: print ‘issue’ continue f.close() Si bien parece que efectivamente analiza la mayoría de los paquetes, recibo una […]

¿Qué es un buen analizador de flujo XML para Python?

¿Hay algún analizador XML para Python que pueda analizar flujos de archivos? Mis archivos XML son demasiado grandes para caber en la memoria, por lo que necesito analizar la secuencia. Idealmente, no tendría que tener acceso de root para instalar cosas, por lo que lxml no es una muy buena opción. He estado usando xml.etree.ElementTree […]

comodín de tiempo de ejecución de python datetime

Quiero analizar fechas como estas en un objeto de fecha y hora: 12 de diciembre de 2008 1 de enero de 2009 Lo siguiente funcionará para la primera fecha: datetime.strptime(“December 12th, 2008”, “%B %dth, %Y”) pero fallará para el segundo debido al sufijo del número del día (‘st’). Entonces, ¿hay un carácter comodín no documentado […]

¿Cómo identifica dinámicamente los delimitadores desconocidos en un archivo de datos?

Tengo tres archivos de datos de entrada. Cada uno utiliza un delimitador diferente para los datos contenidos en él. El archivo de datos uno se ve así: manzanas | plátanos | naranjas | uvas El archivo de datos dos tiene este aspecto: cuarto, moneda de diez centavos, níquel, centavo archivo de datos tres se ve […]

Cómo analizar varias fechas de un bloque de texto en Python (u otro idioma)

Tengo una cadena que tiene varios valores de fecha y quiero analizarlos todos. La cadena es un lenguaje natural, así que lo mejor que he encontrado hasta ahora es dateutil . Desafortunadamente, si una cadena tiene varios valores de fecha, dateutil genera un error: >>> s = “I like peas on 2011-04-23, and I also […]

¿Usar la primera fila como nombres de columna? Pandas read_html

Tengo este sencillo script de una línea: from pandas import read_html print read_html(‘http://money.cnn.com/data/hotstocks/’, flavor = ‘bs4’) Lo que funciona, está bien, pero faltan los nombres de columna, se están identificando como 1, 2, 3. ¿Hay una manera fácil de decirle a los pandas que usen la primera fila como nombres de columna? Sé que podría […]

Analizar archivos .iso en Python

Quiero analizar el archivo .iso en python. Quiero obtener información y datos de .iso por ejemplo, hay un archivo iso, su nombre xyz.iso, pero en realidad es una imagen de Ubuntu y tiene un archivo como Readme.txt, .deb pacges, etc. ¿Cómo puedo hacer esto?

Cómo analizar tags personalizadas usando nltk.Regexp.parser ()

Mi pregunta es similar a esta pregunta sin respuesta: ¿ Usar tags POS personalizadas para la fragmentación de NLTK? , pero el error que estoy recibiendo es diferente. Estoy tratando de analizar una frase a la que he agregado mis propias tags de dominio específicas. Por ejemplo: (u’greatest’, ‘P’), (u’internet’, ‘NN’), (u’ever’, ‘A’), (u’,’, ‘,’), […]

python – ¿Cómo extraer cadenas de cada línea en un archivo de texto?

Tengo un archivo de texto que detecta la cantidad de monitores que están activos. Quiero extraer datos específicos de cada línea e incluirlos en una lista. El archivo de texto se ve así: [EnumerateDevices]: Enumerating Devices. DISPLAY\LGD03D7\4&ACE0355&1&UID68092928 : Generic PnP Monitor DISPLAY\ABCF206\4&ACE0355&1&UID51249920 : Generic PnP Monitor // // here can be more monitors… // 2 […]

error con la función de análisis en lxml

He instalado lxml2.2.2 en la plataforma de Windows (im usando Python versión 2.6.5). Intenté este sencillo comando: from lxml.html import parse p= parse(‘http://www.google.com’).getroot() pero estoy recibiendo el siguiente error: Traceback (most recent call last): File “”, line 1, in p=parse(‘http://www.google.com’).getroot() File “C:\Python26\lib\site-packages\lxml-2.2.2-py2.6-win32.egg\lxml\html_init_.py”, line 661, in parse return etree.parse(filenameorurl, parser, baseurl=baseurl, **kw) File “lxml.etree.pyx”, line 2698, […]