Articles of dask

Cortar un dataframe Dask

Tengo el siguiente código donde me gusta hacer una división de prueba / tren en un dataframe Dask df = dd.read_csv(csv_filename, sep=’,’, encoding=”latin-1″, names=cols, header=0, dtype=’str’) Pero cuando trato de hacer rebanadas como for train, test in cv.split(X, y): df.fit(X[train], y[train]) falla con el error KeyError: ‘[11639 11641 11642 …, 34997 34998 34999] not in […]

Unir dos archivos grandes por columna en python

Tengo 2 archivos con 38374732 líneas en cada uno y tamaño 3.3 G cada uno. Estoy tratando de unirme a ellos en la primera columna. Para hacerlo, decidí usar pandas con el siguiente código que se extrajo de Stackoverflow: import pandas as pd import sys a = pd.read_csv(sys.argv[1],sep=’\t’,encoding=”utf-8-sig”) b = pd.read_csv(sys.argv[2],sep=’\t’,encoding=”utf-8-sig”) chunksize = 10 ** […]

Lectura csv con separador en python dask

Estoy tratando de crear un DataFrame leyendo un archivo csv separado por ‘#####’ 5 hashes El código es: import dask.dataframe as dd df = dd.read_csv(‘D:\temp.csv’,sep=’#####’,engine=’python’) res = df.compute() Error es dask.async.ValueError: Dask dataframe inspected the first 1,000 rows of your csv file to guess the data types of your columns. These first 1,000 rows led […]

Operaciones básicas de groupby en Dask.

Estoy intentando usar Dask para manejar un archivo grande (50 gb). Normalmente, lo cargaría en la memoria y utilizaría Pandas. Quiero agrupar por dos columnas “A” y “B”, y cada vez que la columna “C” comience con un valor, quiero repetir ese valor en esa columna para ese grupo en particular. En pandas, haría lo […]

Dask: ¿es seguro tomar un dataframe para su uso posterior?

Tengo un objeto parecido a una base de datos que contiene muchos marcos de datos dask. Me gustaría trabajar con los datos, guardarlos y volver a cargarlos al día siguiente para continuar con el análisis. Por lo tanto, intenté guardar los marcos de datos de dask (no los resultados de cómputo, solo el “plan de […]

¿Cuál es el papel de npartitions en un dataframe de Dask?

Veo las particiones de npartitions en muchas funciones, pero no entiendo para qué sirve / para qué sirve. http://dask.pydata.org/en/latest/dataframe-api.html#dask.dataframe.read_csv cabeza(…) Los elementos solo se toman de las primeras npartitions, con un valor predeterminado de 1. Si hay menos de n filas en las primeras npartitions, aparecerá una advertencia y se devolverán todas las filas encontradas. […]

error de memoria distribuida dask

Obtuve el siguiente error en el progtwigdor al ejecutar Dask en un trabajo distribuido: distributed.core – ERROR – Traceback (most recent call last): File “/usr/local/lib/python3.4/dist-packages/distributed/core.py”, line 269, in write frames = protocol.dumps(msg) File “/usr/local/lib/python3.4/dist-packages/distributed/protocol.py”, line 81, in dumps frames = dumps_msgpack(small) File “/usr/local/lib/python3.4/dist-packages/distributed/protocol.py”, line 153, in dumps_msgpack payload = msgpack.dumps(msg, use_bin_type=True) File “/usr/local/lib/python3.4/dist-packages/msgpack/__init__.py”, line 47, […]

Inclusión de argumentos de palabras clave (kwargs) en gráficos Dask personalizados

Estoy construyendo un gráfico personalizado para una operación con Dask. Estoy familiarizado con la forma de pasar argumentos a una función en el gráfico de Dask y he leído en los documentos . Sin embargo todavía parecen faltar algo. Una de las funciones utilizadas en el gráfico de Dask toma argumentos de palabras clave. Aunque […]

Cree una tabla sql desde el dataframe dask usando map_partitions y pd.df.to_sql

Dask no tiene un df.to_sql () como pandas, por lo que estoy tratando de replicar la funcionalidad y crear una tabla de SQL utilizando el método map_partitions para hacerlo. Aquí está mi código: import dask.dataframe as dd import pandas as pd import sqlalchemy_utils as sqla_utils db_url = ‘my_db_url_connection’ conn = sqla.create_engine(db_url) ddf = dd.read_csv(‘data/prod.csv’) meta=dict(ddf.dtypes) […]

¿Cómo repartir una estructura de datos en particiones de tamaño fijo?

Tengo un dataframe dask creado a partir de funciones retardadas que se compone de particiones de tamaño aleatorio. Me gustaría volver a particionar el dataframe en trozos de tamaño (aprox.) 10000. ¿Puedo calcular el número correcto de particiones con np.ceil(df.size/10000) pero parece que se calcula el resultado inmediatamente? Para calcular el resultado, IIUC habría tenido […]