Estoy intentando ejecutar un script en el entorno pyspark, pero hasta ahora no he podido. ¿Cómo puedo ejecutar un script como python script.py pero en pyspark? Gracias
Puede hacer: ./bin/spark-submit mypythonfile.py
La ejecución de aplicaciones de Python a través de pyspark
no se admite a partir de Spark 2.0.
pyspark 2.0 y posterior ejecutan el archivo de script en la variable de entorno PYTHONSTARTUP
, por lo que puede ejecutar:
PYTHONSTARTUP=code.py pyspark
En comparación con la respuesta de spark-submit
esto es útil para ejecutar el código de inicialización antes de usar el shell interactivo pyspark.
Simplemente spark-submit mypythonfile.py
debería ser suficiente.