Veo las particiones de npartitions
en muchas funciones, pero no entiendo para qué sirve / para qué sirve.
http://dask.pydata.org/en/latest/dataframe-api.html#dask.dataframe.read_csv
cabeza(…)
Los elementos solo se toman de las primeras npartitions, con un valor predeterminado de 1. Si hay menos de n filas en las primeras npartitions, aparecerá una advertencia y se devolverán todas las filas encontradas. Pase -1 para usar todas las particiones.
reparto (…)
- ValueError: no se conocen todas las divisiones, no se pueden alinear errores de partición en el dataframe de dask
- Cómo convertir el resultado de Pandas DataFrame al formato json definido por el usuario
- Python: compruebe si la columna del dataframe contiene un tipo de cadena
- ¿Cómo repartir una estructura de datos en particiones de tamaño fijo?
- Python Pandas: ¿cómo convertir un DataFrame con “factores” en una matriz de diseño para la regresión lineal?
Número de particiones de salida, debe ser menor que n particiones de entrada. Sólo se utiliza si no se especifican las divisiones.
Es el número de particiones probablemente 5 en este caso:
(Fuente de la imagen: http://dask.pydata.org/en/latest/dataframe-overview.html )
La propiedad npartitions
es el número de marcos de datos de Pandas que componen un único dataframe de Dask. Esto afecta el rendimiento de dos maneras principales.
Por lo general, usted quiere un par de veces más particiones de las que tiene núcleos. Cada tarea ocupa unos pocos cientos de microsegundos en el progtwigdor.
Puede determinar el número de particiones en el momento de la ingesta de datos utilizando los parámetros como blocksize=
en read_csv(...)
o posteriormente utilizando el .repartition(...)