Articles of dask

Dask: crear índice estrictamente creciente

Como está bien documentado, Dask crea un índice estrictamente creciente por partición cuando se llama a reset_index , dando como resultado índices duplicados en todo el conjunto. ¿Cuál es la mejor manera (p. Ej., Más rápida computacionalmente) para crear un índice estrictamente creciente en Dask, que no tiene que ser consecutivo, en todo el conjunto? […]

Convierte series de tiempo raster de múltiples imágenes GeoTIFF a NetCDF

Tengo una serie temporal rasterizada almacenada en varios archivos GeoTIFF ( *.tif ) que me gustaría convertir en un solo archivo NetCDF . Los datos son uint16 . Probablemente podría usar gdal_translate para convertir cada imagen a netcdf usando: gdal_translate -of netcdf -co FORMAT=NC4 20150520_0164.tif foo.nc y luego algunas secuencias de comandos con NCO para […]

Bloqueo en dask.multiprocessing.get y adición de metadatos a HDF

Al realizar una tarea ETL en Python puro, me gustaría recostackr métricas de error así como metadatos para cada uno de los archivos de entrada sin procesar (las métricas de error se calculan a partir de los códigos de error proporcionados en la sección de datos de los archivos, mientras que los metadatos se almacenan […]

¿Por qué es el producto de punto en dask más lento que en numpy

un producto de punto en dask parece funcionar mucho más lento que en numpy: import numpy as np x_np = np.random.normal(10, 0.1, size=(1000,100)) y_np = x_np.transpose() %timeit x_np.dot(y_np) # 100 loops, best of 3: 7.17 ms per loop import dask.array as da x_dask = da.random.normal(10, 0.1, size=(1000,100), chunks=(5,5)) y_dask = x_dask.transpose() %timeit x_dask.dot(y_dask) # 1 […]

¿Cómo puedo seleccionar datos de un dataframe dask mediante una lista de índices?

Digamos, tengo el siguiente dataframe dask. dict_ = {‘A’:[1,2,3,4,5,6,7], ‘B’:[2,3,4,5,6,7,8], ‘index’:[‘x1’, ‘a2’, ‘x3’, ‘c4’, ‘x5’, ‘y6’, ‘x7’]} pdf = pd.DataFrame(dict_) pdf = pdf.set_index(‘index’) ddf = dask.dataframe.from_pandas(pdf, npartitions = 2) Además, tengo una lista de índices en los que estoy interesado, por ejemplo, indices_i_want_to_select = [‘x1′,’x3’, ‘y6’] ¿Cómo puedo generar un nuevo dataframe dask, que contiene […]

Cortar un dataframe Dask

Tengo el siguiente código donde me gusta hacer una división de prueba / tren en un dataframe Dask df = dd.read_csv(csv_filename, sep=’,’, encoding=”latin-1″, names=cols, header=0, dtype=’str’) Pero cuando trato de hacer rebanadas como for train, test in cv.split(X, y): df.fit(X[train], y[train]) falla con el error KeyError: ‘[11639 11641 11642 …, 34997 34998 34999] not in […]

Unir dos archivos grandes por columna en python

Tengo 2 archivos con 38374732 líneas en cada uno y tamaño 3.3 G cada uno. Estoy tratando de unirme a ellos en la primera columna. Para hacerlo, decidí usar pandas con el siguiente código que se extrajo de Stackoverflow: import pandas as pd import sys a = pd.read_csv(sys.argv[1],sep=’\t’,encoding=”utf-8-sig”) b = pd.read_csv(sys.argv[2],sep=’\t’,encoding=”utf-8-sig”) chunksize = 10 ** […]

Lectura csv con separador en python dask

Estoy tratando de crear un DataFrame leyendo un archivo csv separado por ‘#####’ 5 hashes El código es: import dask.dataframe as dd df = dd.read_csv(‘D:\temp.csv’,sep=’#####’,engine=’python’) res = df.compute() Error es dask.async.ValueError: Dask dataframe inspected the first 1,000 rows of your csv file to guess the data types of your columns. These first 1,000 rows led […]

Operaciones básicas de groupby en Dask.

Estoy intentando usar Dask para manejar un archivo grande (50 gb). Normalmente, lo cargaría en la memoria y utilizaría Pandas. Quiero agrupar por dos columnas “A” y “B”, y cada vez que la columna “C” comience con un valor, quiero repetir ese valor en esa columna para ese grupo en particular. En pandas, haría lo […]

Dask: ¿es seguro tomar un dataframe para su uso posterior?

Tengo un objeto parecido a una base de datos que contiene muchos marcos de datos dask. Me gustaría trabajar con los datos, guardarlos y volver a cargarlos al día siguiente para continuar con el análisis. Por lo tanto, intenté guardar los marcos de datos de dask (no los resultados de cómputo, solo el “plan de […]