Bibliotecas necesarias para utilizar Spark desde Python (PySpark)

Estoy usando PySpark de Django y me conecto a un nodo maestro de chispa usando SparkSession para ejecutar un trabajo en el clúster.

Mi pregunta es ¿necesito una instalación completa de spark en mi máquina local? Toda la documentación me hace instalar spark y luego agregar las bibliotecas de PySpark a la ruta de acceso de python. No creo que necesite todos los ~ 500 mb de eso para conectarme a un clúster existente. Estoy tratando de aligerar mis contenedores docker.

Gracias por la ayuda.

Aunque no lo he probado, a partir de Spark 2.1, PySpark está disponible en PyPi (para la instalación a través de pip ) precisamente para casos como el suyo. De los documentos :

El empaque de Python para Spark no pretende reemplazar todos los otros casos de uso. Esta versión de Spark en paquete de Python es adecuada para interactuar con un clúster existente (ya sea independiente de Spark, YARN o Mesos), pero no contiene las herramientas necesarias para configurar su propio clúster de Spark independiente. Puede descargar la versión completa de Spark desde la página de descargas de Apache Spark.

NOTA : Si está utilizando esto con un clúster independiente de Spark, debe asegurarse de que la versión (incluida la versión secundaria) coincida o puede experimentar errores extraños