Articles of dask

Agregue un valor a una columna de marcos de datos DASK importados usando csv_read

Supongamos que se importan cinco archivos a la DASK utilizando csv_read . Para ello, utilizo este código: import dask.dataframe as dd data = dd.read_csv(final_file_list_msg, header = None) Cada archivo tiene diez columnas. Quiero agregar 1 a la primera columna del archivo 1, 2 a la primera columna del archivo 2, 3 a la primera columna […]

Procesamiento de volumen 3D usando dask

Estoy explorando la convolución de volúmenes interactivos en 3D con algunas plantillas simples usando dask en este momento. Déjame explicarte lo que quiero decir: Suponga que tiene datos 3D que le gustaría procesar a través de Sobel Transform (por ejemplo, para obtener un gradiente de L1 o L2). Luego, divide la imagen de entrada en […]

Dask Dataframe divide la columna de la lista en varias columnas

La misma tarea en Pandas se puede hacer fácilmente con import pandas as pd df = pd.DataFrame({“lists”:[[i, i+1] for i in range(10)]}) df[[‘left’,’right’]] = pd.DataFrame([x for x in df.lists]) Pero no puedo averiguar cómo hacer algo similar con un dask.dataframe Actualizar Hasta ahora he encontrado esta solución ddf = dd.from_pandas(df, npartitions=2) ddf[“left”] = ddf.apply(lambda x: […]

¿Cómo transponer un dataframe dask (convertir columnas en filas) para abordar principios de datos ordenados?

TLDR : he creado un dataframe dask a partir de una bolsa dask. El dataframe dask trata cada observación (evento) como una columna. Entonces, en lugar de tener filas de datos para cada evento, tengo una columna para cada evento. El objective es transponer las columnas a filas de la misma manera que los pandas […]

Dask función de balanceo por syntax de grupo

Durante un tiempo luché con la syntax para trabajar en el cálculo de una función de rotación por grupo para un dataframe dask. La documentación es excelente, pero en este caso no tiene un ejemplo. La versión de trabajo que tengo es la siguiente, de un csv que contiene un campo de texto con ID […]

de almacenamiento tif de imagen 4D fuera de núcleo como hdf5 python

Tengo 27 GB de archivos tiff 2D que representan segmentos de una película de imágenes en 3D. Quiero poder dividir estos datos como si fuera una simple matriz numpy4d. Parece que dask.array es una buena herramienta para manipular limpiamente la matriz una vez que se almacena en la memoria como un archivo hdf5. ¿Cómo puedo […]

Dask.dataframe o Alternative: forma escalable de eliminar filas de elementos de baja frecuencia

Estoy buscando una forma de eliminar filas de un dataframe que contenga elementos de baja frecuencia. He adaptado el siguiente fragmento de este post: import pandas as pd import numpy as np df = pd.DataFrame(np.random.randint(0, high=9, size=(100,2)), columns = [‘A’, ‘B’]) threshold = 10 # Anything that occurs less than this will be removed. value_counts […]

¿Qué está haciendo map_partitions?

La API de dask dice que map_partition se puede usar para “aplicar una función de Python en cada partición de DataFrame”. A partir de esta descripción y de acuerdo con el comportamiento habitual de “map”, esperaría que el valor de retorno de map_partitions sea (algo así como) una lista cuya longitud sea igual al número […]

¿Cómo crear Dask DataFrame a partir de una lista de urls?

Tengo una lista de las URL, y me encantaría leerlas en el dataframe dask a la vez, pero parece que read_csv no puede usar un asterisco para http . ¿Hay alguna manera de lograr eso? Aquí hay un ejemplo: link = ‘http://web.mta.info/developers/’ data = [ ‘data/nyct/turnstile/turnstile_170128.txt’, ‘data/nyct/turnstile/turnstile_170121.txt’, ‘data/nyct/turnstile/turnstile_170114.txt’, ‘data/nyct/turnstile/turnstile_170107.txt’ ] y lo que quiero es […]

La instalación pip predeterminada de Dask proporciona “ImportError: No hay un módulo llamado toolz”

Instalé Dask usando pip de esta manera: pip install dask y cuando bash import dask.dataframe as dd el siguiente mensaje de error: >>> import dask.dataframe as dd Traceback (most recent call last): File “”, line 1, in File “/path/to/venv/lib/python2.7/site-packages/dask/__init__.py”, line 5, in from .async import get_sync as get File “/path/to/venv/lib/python2.7/site-packages/dask/async.py”, line 120, in from toolz […]