Articles of dask

ValueError: no se conocen todas las divisiones, no se pueden alinear errores de partición en el dataframe de dask

Tengo el siguiente dataframe de pandas con las siguientes columnas user_id user_agent_id requests Todas las columnas contienen números enteros. No voy a realizar algunas operaciones en ellos y ejecutarlos utilizando el dataframe dask. Esto es lo que hago. user_profile = cache_records_dataframe[[‘user_id’, ‘user_agent_id’, ‘requests’]] \ .groupby([‘user_id’, ‘user_agent_id’]) \ .size().to_frame(name=’appearances’) \ .reset_index() # I am not sure […]

Cómo hacer el procesamiento de filas y la asignación de elementos en Dask

Pregunta sin respuesta similar: procesamiento fila por fila de un DataFrame de Dask Estoy trabajando con marcos de datos que tienen millones en filas, por lo que ahora estoy intentando que todas las operaciones de marcos de datos se realicen en paralelo. Una de esas operaciones que necesito convertir a Dask es: for row in […]

Desembalaje resultado de la función retrasada

Mientras convertía mi progtwig usando retraso, me topé con un patrón de progtwigción comúnmente usado que no funciona con retraso. Ejemplo: from dask import delayed @delayed def myFunction(): return 1,2 a, b = myFunction() a.compute() Aumenta: TypeError: Delayed objects of unspecified length are not iterable Mientras que la siguiente TypeError: Delayed objects of unspecified length […]

Agregue un valor a una columna de marcos de datos DASK importados usando csv_read

Supongamos que se importan cinco archivos a la DASK utilizando csv_read . Para ello, utilizo este código: import dask.dataframe as dd data = dd.read_csv(final_file_list_msg, header = None) Cada archivo tiene diez columnas. Quiero agregar 1 a la primera columna del archivo 1, 2 a la primera columna del archivo 2, 3 a la primera columna […]

Procesamiento de volumen 3D usando dask

Estoy explorando la convolución de volúmenes interactivos en 3D con algunas plantillas simples usando dask en este momento. Déjame explicarte lo que quiero decir: Suponga que tiene datos 3D que le gustaría procesar a través de Sobel Transform (por ejemplo, para obtener un gradiente de L1 o L2). Luego, divide la imagen de entrada en […]

Dask Dataframe divide la columna de la lista en varias columnas

La misma tarea en Pandas se puede hacer fácilmente con import pandas as pd df = pd.DataFrame({“lists”:[[i, i+1] for i in range(10)]}) df[[‘left’,’right’]] = pd.DataFrame([x for x in df.lists]) Pero no puedo averiguar cómo hacer algo similar con un dask.dataframe Actualizar Hasta ahora he encontrado esta solución ddf = dd.from_pandas(df, npartitions=2) ddf[“left”] = ddf.apply(lambda x: […]

¿Cómo transponer un dataframe dask (convertir columnas en filas) para abordar principios de datos ordenados?

TLDR : he creado un dataframe dask a partir de una bolsa dask. El dataframe dask trata cada observación (evento) como una columna. Entonces, en lugar de tener filas de datos para cada evento, tengo una columna para cada evento. El objective es transponer las columnas a filas de la misma manera que los pandas […]

Dask función de balanceo por syntax de grupo

Durante un tiempo luché con la syntax para trabajar en el cálculo de una función de rotación por grupo para un dataframe dask. La documentación es excelente, pero en este caso no tiene un ejemplo. La versión de trabajo que tengo es la siguiente, de un csv que contiene un campo de texto con ID […]

de almacenamiento tif de imagen 4D fuera de núcleo como hdf5 python

Tengo 27 GB de archivos tiff 2D que representan segmentos de una película de imágenes en 3D. Quiero poder dividir estos datos como si fuera una simple matriz numpy4d. Parece que dask.array es una buena herramienta para manipular limpiamente la matriz una vez que se almacena en la memoria como un archivo hdf5. ¿Cómo puedo […]

Dask.dataframe o Alternative: forma escalable de eliminar filas de elementos de baja frecuencia

Estoy buscando una forma de eliminar filas de un dataframe que contenga elementos de baja frecuencia. He adaptado el siguiente fragmento de este post: import pandas as pd import numpy as np df = pd.DataFrame(np.random.randint(0, high=9, size=(100,2)), columns = [‘A’, ‘B’]) threshold = 10 # Anything that occurs less than this will be removed. value_counts […]