Articles of dask

La instalación pip predeterminada de Dask proporciona “ImportError: No hay un módulo llamado toolz”

Instalé Dask usando pip de esta manera: pip install dask y cuando bash import dask.dataframe as dd el siguiente mensaje de error: >>> import dask.dataframe as dd Traceback (most recent call last): File “”, line 1, in File “/path/to/venv/lib/python2.7/site-packages/dask/__init__.py”, line 5, in from .async import get_sync as get File “/path/to/venv/lib/python2.7/site-packages/dask/async.py”, line 120, in from toolz […]

¿Por qué los pandas y dask funcionan mejor cuando se importa desde CSV en comparación con HDF5?

Estoy trabajando con un sistema que actualmente funciona con archivos .csv grandes (> 5GB). Para boost el rendimiento, estoy probando (A) diferentes métodos para crear marcos de datos desde el disco (pandas VS dask ), así como (B) diferentes formas de almacenar resultados en el disco (archivos .csv VS hdf5 ). Para comparar el rendimiento, […]

Cómo especificar el número de subprocesos / procesos para el progtwigdor de dask predeterminado

¿Hay alguna manera de limitar la cantidad de núcleos utilizados por el progtwigdor de hilos predeterminado (predeterminado cuando se usan marcos de datos dask)? Con compute , puedes especificarlo usando: df.compute(get=dask.threaded.get, num_workers=20) ¿Pero me preguntaba si hay una manera de establecer esto como predeterminado, por lo que no necesita especificar esto para cada llamada de […]

¿Puedo usar funciones importadas de archivos .py en Dask / Distributed?

Tengo una pregunta sobre serialización e importaciones. ¿Deberían las funciones tener sus propias importaciones? Como he visto hecho con PySpark ¿Está simplemente mal el siguiente? ¿Necesita mod.py ser un paquete conda / pip? mod.py fue escrito en un sistema de archivos compartido. In [1]: from distributed import Executor In [2]: e = Executor(‘127.0.0.1:8786’) In [3]: […]

Escribiendo particiones Dask en un solo archivo

Como dask en dask , tengo un archivo CSV de 1GB cuando lo leo en el dataframe de dask , crea unas 50 particiones después de mis cambios en el archivo cuando escribo, crea tantos archivos como particiones. ¿Hay una manera de escribir todas las particiones en un solo archivo CSV y hay una manera […]

dataframe dask cómo convertir la columna a to_datetime

Estoy tratando de convertir una columna de mi dataframe a datetime. Siguiendo la discusión aquí https://github.com/dask/dask/issues/863 Intenté el siguiente código: import dask.dataframe as dd df[‘time’].map_partitions(pd.to_datetime, columns=’time’).compute() Pero estoy recibiendo el siguiente mensaje de error ValueError: Metadata inference failed, please provide `meta` keyword ¿Qué exactamente debo poner bajo meta? ¿Debo poner un diccionario de TODAS las […]

Conversión de Dask Scalar a valor entero (o guárdelo en un archivo de texto)

He calculado utilizando dask por from dask import dataframe all_data = dataframe.read_csv(path) total_sum = all_data.account_balance.sum() El archivo csv tiene una columna llamada account_balance . El total_sum es un objeto dd.Scalar , que parece ser difícil cambiarlo a entero. ¿Cómo obtener la versión entera? o guardarlo en un archivo .txt que contenga el número también está […]

python dask DataFrame, ¿es compatible con la fila (trivialmente paralelizable)?

Recientemente encontré el módulo dask que pretende ser un módulo de parallel processing de Python fácil de usar. El gran punto de venta para mí es que funciona con pandas. Después de leer un poco en su página de manual, no puedo encontrar una manera de hacer esta tarea trivialmente paralelizable: ts.apply(func) # for pandas […]

¿Cómo debo obtener la forma de un dataframe dask?

Realizar .shape me está dando el siguiente error. AttributeError: el objeto ‘DataFrame’ no tiene atributo ‘shape’ ¿Cómo debo obtener la forma en su lugar?

el valor de la clave duplicada viola la restricción única – error de postgres al intentar crear una tabla sql desde el dataframe de dask

Luego de esta pregunta, cuando bash crear una tabla postgresql desde un dask.dataframe con más de una partición, aparece el siguiente error: IntegrityError: (psycopg2.IntegrityError) duplicate key value violates unique constraint “pg_type_typname_nsp_index” DETAIL: Key (typname, typnamespace)=(test1, 2200) already exists. [SQL: ‘\nCREATE TABLE test1 (\n\t”A” BIGINT, \n\t”B” BIGINT, \n\t”C” BIGINT, \n\t”D” BIGINT, \n\t”E” BIGINT, \n\t”F” BIGINT, \n\t”G” […]