Articles of parsing

re.split no funciona correctamente con una cadena que proviene de la celda de Excel

Tengo una cadena: 05-01-2015 12:27 – KH – (KH) Igangværende – Opringning – 13-11 00:00 Fangede RLI på hans mobil. Anillo igen kl. 15 19-11-2014 11:17 – KH – (KH) Igangværende – Opringning – 13-11 00:00 Gik på svarer igen og lagt besked hasta RLI en ringe tilbage. 12-11-2014 09:38 – KH – (KH) Igangværende […]

Desguace del mercado inmobiliario utilizando Python y BeautifulSoup

Necesito algún concepto sobre cómo analizar un mercado de bienes raíces utilizando Python. He buscado información sobre el análisis de los sitios web, incluso hice esto en VBA, pero me gustaría hacerlo en python. Este es el sitio que se analizará (es solo una oferta ahora, pero estará trabajando en una amplia gama de ofertas […]

Python html parsing

Necesito analizar correos electrónicos html que serán similares pero no exactamente iguales. Buscaré cosas como fechas, cantidades, proveedores, etc., pero dependiendo de quién provenga el correo electrónico, el marcado será diferente. ¿Cómo podría analizar esas cosas comunes de muchas marcas html diferentes en python? Gracias por tus sugerencias.

La mejor manera de analizar VisualStudio .csproj file usando python

¿Cuál es la mejor manera de analizar el archivo .csproj Visual Studio usando python, para una modificación adicional? Es un archivo .csproj : … … … Quiero insertar esto: path/to/SomeAassembly.dll en el nodo .

Usando el espacio normalizado con Scrapy

A continuación se muestra una maqueta de un documento en el que estoy trabajando: Area Address: 10 Downing Street London SW1 Estoy recibiendo la dirección de esta manera: response.xpath(u”.//h4[. = ‘Area’]/following-sibling::span[contains(.,’Address:’)]/text()”).extract() que devuelve [u’\r\n \t’, u’\r\n 10 Downing Street\r\n\r\n London \r\n \r\n SW1\r\n ‘] Estoy tratando de limpiar eso con normalizar el espacio. He intentado […]

Procesando XML en Python con ElementTree

Tengo un problema con ElementTree.iter (). Así que probé este ejemplo en este enlace: http://eli.thegreenplace.net/2012/03/15/processing-xml-in-python-with-elementtree/ Así que aquí está lo que he intentado: import elementtree.ElementTree as ET tree = ET.parse(‘XML_file.xml’) root = tree.getroot() for elem in tree.iter(): print elem.tag, elem.attrib Y recibo este error AttributeError: la instancia de ElementTree no tiene atributo ‘iter’ Información adicional: […]

xml analizando en python usando ElementTree

Soy muy nuevo en Python y necesito analizar algunos archivos XML sucios que primero necesitan ser desinfectados. Tengo el siguiente código de python: import arff import xml.etree.ElementTree import re totstring=”” with open(‘input.sgm’, ‘r’) as inF: for line in inF: string=re.sub(“[^0-9a-zA-Z/\s=!-\”\”]+”,””, line) totstring+=string data=xml.etree.ElementTree.fromstring(totstring) print data file.close que analiza: 26-FEB-1987 15:01:01.79 cocoa el-salvadorusauruguay CT f0704reute uf […]

El lector CSV de Python devuelve una fila como lista

Estoy tratando de analizar un CSV usando python y me gustaría poder indexar elementos en una fila para que se pueda acceder usando la row[0] , la row[1] y así sucesivamente. Hasta ahora este es mi código: def get_bitstats(): url = ‘http://bitcoincharts.com/t/trades.csv?symbol=mtgoxUSD’ data = urllib.urlopen(url).read() dictReader = csv.DictReader(data) obj = BitData() for row in dictReader: […]

Script para buscar texto desde PDF

Problema En la plataforma Mac OS X, me gustaría escribir un script, ya sea en Python o Tcl para buscar texto dentro de un archivo PDF y extraer las partes relevantes. Aprecio cualquier ayuda. Fondo Estoy escribiendo guiones para mirar dentro de un PDF para determinar si se trata de una factura, de qué compañía […]

“Deparsing” una lista utilizando pyparsing

¿Es posible dar a pyparsing una lista analizada y hacer que devuelva la cadena original?