Articles of parsing

¿Dificultad de este trabajo en particular usando pyparsing? (principiante)

Tengo la tarea de hacer eso. Estoy seguro de que Python y pyparsing realmente podrían ayudar, pero todavía soy demasiado novato con la progtwigción para tomar una decisión inteligente sobre qué tan difícil será la implementación completa y si vale la pena intentarlo. Es cierto que será un infructuoso fregadero del tiempo. La tarea es […]

¿Cómo obtengo un conjunto de reglas gtwigticales de Penn Treebank usando python y NLTK?

Soy bastante nuevo en NLTK y Python. He estado creando análisis de oraciones utilizando las gramáticas de los juguetes que figuran en los ejemplos, pero me gustaría saber si es posible usar una gramática aprendida de una parte del Penn Treebank, por ejemplo, en lugar de solo escribir la mía o usar el juguete. gramáticas? […]

Python html análisis que realmente funciona

Estoy tratando de analizar algunos html en Python. Hubo algunos métodos que realmente funcionaron antes … pero hoy en día no hay nada que pueda usar sin soluciones alternativas. beautifulsoup tiene problemas después de que SGMLParser se fue html5lib no puede analizar la mitad de lo que está “ahí fuera” lxml intenta ser “demasiado correcto” […]

Análisis de tags XML en blanco con LXML y Python

Al analizar documentos XML en el formato de: Blue Chevy Camaro Yo uso el siguiente código: carData = element.xpath(‘//Root/Foo/Bar/Car/node()[text()]’) parsedCarData = [{field.tag: field.text for field in carData} for action in carData] print parsedCarData[0][‘Color’] #Blue Este código no funcionará si una etiqueta está vacía, como por ejemplo: Blue Chevy Usando el mismo código que el anterior: […]

¿Cómo puedo analizar GeoJSON con Python?

Tengo datos geojson de una consulta que ahora quiero analizar e imprimir en la pantalla. Mi código actual es: import urllib import geojson while True: url = ‘https://earthquake.usgs.gov/fdsnws/event/1/query?format=geojson&starttime=2012-01-01&endtime=2017-03-01&minmagnitude=4.0&maxmagnitude=9.0&minlongitude=5.95&maxlongitude=10.50&minlatitude=45.81&maxlatitude=47.81’ uh = urllib.urlopen(url) data = uh.read() print data break Parece que los data son una cadena simple. Sin embargo, pensé que podría ser analizado como un parámetro […]

Analice todos los archivos xml en un directorio uno por uno usando ElementTree

Estoy analizando XML en python por ElementTree import xml.etree.ElementTree as ET tree = ET.parse(‘try.xml’) root = tree.getroot() Deseo analizar todos los archivos ‘xml’ en un directorio determinado. El usuario debe ingresar solo el nombre del directorio y yo debería poder recorrer todos los archivos en el directorio y analizarlos uno por uno. ¿Puede alguien decirme […]

Analizar direcciones IP desde txt

Estoy tratando de descargar un archivo txt que puedes encontrar aquí . Descargar el archivo no es un problema: testfile = urllib.URLopener() testfile.retrieve(_proxy_list_download_, “proxies.txt”) Pero el problema es que cuando se descarga, actúa raro. Cuando lo abro en cualquier editor de texto, puedo ver el contenido y las direcciones IP, pero cuando bash imprimir el […]

¿Qué generador de analizador utiliza CPython?

Estaba leyendo esta página en la documentación, y noté que dice Esta es la gramática completa de Python, ya que el generador del analizador la lee y la utiliza para analizar los archivos de origen de Python. Sin embargo, estoy teniendo dificultades para descubrir qué utiliza el generador de analizador CPython. Entonces, ¿qué generador de […]

Python / Pandas CSV Parsing

Usé el widget de lista configurable de JotForm para recostackr datos, pero tengo problemas para analizar los datos resultantes correctamente. Cuando yo uso testdf = pd.read_csv (“TestLoad.csv”) Los datos se leen como dos registros y los detalles se almacenan en la columna “Información”. Entiendo por qué se analiza de la forma en que está, pero […]

Extracción de datos de tags de anclaje usando expresiones regulares en python

Estoy tratando de extraer los hipervínculos de una página web usando expresiones regulares en Python. Supongamos que mi cadena de texto es: text = ‘ALL/nASSIGN’ y quiero extraer TODOS y ASIGNAR, estoy usando esta expresión regular: re.findall(r'(\w+)’, text, re.DOTALL) esto solo devuelve ASSIGN. ¿Puede alguien ayudarme, por favor, a señalar el error en la expresión […]