Articles of csv

Convertir csv grande a hdf5

Tengo un archivo csv de 100 M de línea (en realidad, muchos archivos csv separados) que totalizan 84 GB. Necesito convertirlo en un archivo HDF5 con un solo conjunto de datos flotante. Usé h5py en las pruebas sin ningún problema, pero ahora no puedo hacer el conjunto de datos final sin quedarme sin memoria. ¿Cómo […]

Python Pandas: ¿Cómo leer solo las primeras n filas de archivos CSV?

Tengo un conjunto de datos muy grande y no puedo darme el lujo de leer todo el conjunto de datos. Entonces, estoy pensando en leer solo una parte para entrenar, pero no tengo idea de cómo hacerlo. Cualquier pensamiento será apreciado.

Módulo CSV de Python – las citas desaparecen

Tengo un archivo CSV que tiene datos como este 15,”I”,2,41301888,”BYRNESS RAW”,””,”BYRNESS VILLAGE”,”NORTHUMBERLAND”,”ENG” 11,”I”,3,41350101,2,2935,2,2008-01-09,1,8,0,2003-02-01,,2009-12-22,2003-02-11,377016.00,601912.00,377105.00,602354.00,10 Estoy leyendo esto y luego escribiendo diferentes filas en diferentes archivos CSV. Sin embargo, en los datos originales hay comillas alrededor de los campos no numéricos, ya que algunos de ellos contienen comas dentro del campo. No soy capaz de mantener las […]

Salida de diferente precisión por columna con pandas.DataFrame.to_csv ()?

Pregunta ¿Es posible especificar una precisión flotante específicamente para cada columna que se imprimirá con el método del paquete pandas Python pandas.DataFrame.to_csv ? Fondo Si tengo un dataframe de pandas que se organiza así: In [53]: df_data[:5] Out[53]: year month day lats lons vals 0 2012 6 16 81.862745 -29.834254 0.0 1 2012 6 16 […]

Convertir CSV a YAML, con Unicode?

Estoy intentando convertir un archivo CSV, que contiene cadenas Unicode, en un archivo YAML usando Python 3.4. Actualmente, el analizador YAML escapa mi texto Unicode en una cadena ASCII. Quiero que el analizador YAML exporte la cadena Unicode como una cadena Unicode, sin los caracteres de escape. Por supuesto, estoy entendiendo mal algo, y agradecería […]

Cómo dejar de escribir una línea en blanco al final del archivo csv – pandas

Al guardar los datos en csv, data.to_csv(‘csv_data’, sep=’,’, encoding=’utf-8′, header= False, index = False) , se crea una línea en blanco al final del archivo csv. ¿Cómo evitas eso? Tiene que ver con el line_terminator y su valor predeterminado es n , para la nueva línea. ¿Hay alguna forma de especificar el line_terminator para evitar […]

El codec ‘ascii’ de Python csv unicode no puede codificar el carácter u ‘\ xf6’ en la posición 1: ordinal no está dentro del rango (128)

He copiado este script de [sitio web de python] [1] Esta es otra pregunta, pero ahora hay un problema con la encoding: import sqlite3 import csv import codecs import cStringIO import sys class UTF8Recoder: “”” Iterator that reads an encoded stream and reencodes the input to UTF-8 “”” def __init__(self, f, encoding): self.reader = codecs.getreader(encoding)(f) […]

Descomprimir y leer archivos de tick .bi5 Dukascopy

Necesito abrir un archivo .bi5 y leer el contenido para abreviar una larga historia. El problema: tengo decenas de miles de archivos .bi5 que contienen datos de series de tiempo que necesito descomprimir y procesar (leer, descargar en pandas). Terminé instalando Python 3 (normalmente uso 2.7) específicamente para la biblioteca lzma , ya que me […]

Guarda Dataframe en csv directamente en Python s3

Tengo un DataFrame de pandas que quiero cargar en un nuevo archivo CSV. El problema es que no quiero guardar el archivo localmente antes de transferirlo a s3. ¿Hay algún método como to_csv para escribir el dataframe en s3 directamente? Estoy usando boto3. Aquí está lo que tengo hasta ahora: import boto3 s3 = boto3.client(‘s3’, […]

leer y analizar un archivo TSV, luego manipularlo para guardarlo como CSV (* eficientemente *)

Mis datos de origen están en un archivo TSV, 6 columnas y más de 2 millones de filas. Esto es lo que estoy tratando de lograr: Necesito leer los datos en 3 de las columnas (3, 4, 5) en este archivo fuente La quinta columna es un entero. Necesito usar este valor entero para duplicar […]