Apache Spark: cómo usar pyspark con Python 3

Construí Spark 1.4 del maestro de desarrollo de GH, y la comstackción pasó bien. Pero cuando hago un bin/pyspark obtengo la versión Python 2.7.9. ¿Cómo puedo cambiar esto?

Solo establece la variable de entorno:

export PYSPARK_PYTHON=python3

En caso de que desee que esto sea un cambio permanente, agregue esta línea al script pyspark.

 PYSPARK_PYTHON=python3 ./bin/pyspark 

Si desea ejecutar en IPython Notebook, escriba:

 PYSPARK_PYTHON=python3 PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" ./bin/pyspark 

Si no se puede acceder a python3 , debe pasarle una ruta.

Tenga en cuenta que la documentación actual (a partir de 1.4.1) tiene instrucciones obsoletas. Afortunadamente, ha sido parcheado .

1, editar perfil: vim ~/.profile

2, agregue el código en el archivo: export PYSPARK_PYTHON=python3

3, ejecute el comando: source ~/.profile

4, ./bin/pyspark

Echa un vistazo al archivo. La línea shebang probablemente apunta al binario ‘env’ que busca el primer ejecutable compatible en la ruta.

Puedes cambiar python a python3. Cambie el env para usar directamente el binario python3 codificado. O ejecuta el binario directamente con python3 y omite la línea shebang.

Para Jupyter Notebook, edite el archivo spark-env.sh como se muestra a continuación desde la línea de comandos

 $ vi $SPARK_HOME/conf/spark-env.sh 

Ir a la parte inferior del archivo y copiar pegar estas líneas

 export PYSPARK_PYTHON=python3 export PYSPARK_DRIVER_PYTHON=jupyter export PYSPARK_DRIVER_PYTHON_OPTS="notebook" 

Luego, simplemente ejecute el siguiente comando para iniciar pyspark en el cuaderno

 $ pyspark