Dask: ¿es seguro tomar un dataframe para su uso posterior?

Tengo un objeto parecido a una base de datos que contiene muchos marcos de datos dask. Me gustaría trabajar con los datos, guardarlos y volver a cargarlos al día siguiente para continuar con el análisis.

Por lo tanto, intenté guardar los marcos de datos de dask (no los resultados de cómputo, solo el “plan de cómputo” en sí) usando pickle. Aparentemente, funciona (al menos, si desentraño los objetos en la misma máquina) … ¿pero hay algunos escollos?

Generalmente hablando es usualmente seguro. Sin embargo, hay algunas advertencias:

  1. Si su archivo dask.dataframe contiene funciones personalizadas, como con con df.apply(lambda x: x) , la función interna no será seleccionable. Sin embargo, todavía será serializable con cloudpickle
  2. Si su archivo dask.dataframe contiene referencias a archivos que solo son válidos en su computadora local, entonces, aunque aún será serializable, la versión re-serializada en otra máquina puede no ser útil.
  3. Si su dask.dataframe contiene objetos Future dask.distributed , como los que ocurriría si usa Executor.persist en un clúster, estos no son actualmente serializables.
  4. Recomiendo usar una versión> = 0.11.0.