¿Hay alguna manera de limitar la cantidad de núcleos utilizados por el progtwigdor de hilos predeterminado (predeterminado cuando se usan marcos de datos dask)?
Con compute
, puedes especificarlo usando:
df.compute(get=dask.threaded.get, num_workers=20)
¿Pero me preguntaba si hay una manera de establecer esto como predeterminado, por lo que no necesita especificar esto para cada llamada de compute
?
Sería interesante, por ejemplo, en el caso de un grupo pequeño (por ejemplo, de 64 núcleos), pero que se comparte con otras personas (sin un sistema de trabajo), y no quiero ocupar necesariamente todos los núcleos al iniciar los cálculos con dask .
Puede especificar un ThreadPool predeterminado
from multiprocessing.pool import ThreadPool import dask dask.config.set(pool=ThreadPool(20))