Articles of chispa de apache de

¿Cómo uso múltiples condiciones con pyspark.sql.funtions.when ()?

Tengo un dataframe con algunas columnas. Ahora quiero derivar una nueva columna de otras 2 columnas: from pyspark.sql import functions as F new_df = df.withColumn(“new_col”, F.when(df[“col-1”] > 0.0 & df[“col-2”] > 0.0, 1).otherwise(0)) Con esto solo obtengo una excepción: py4j.Py4JException: Method and([class java.lang.Double]) does not exist Funciona con una sola condición como esta: new_df = […]

configurando SparkContext para pyspark

Soy novato con spark y pyspark . Apreciaré si alguien explica qué hace exactamente el parámetro SparkContext ? ¿Y cómo podría configurar spark_context para la aplicación python?

ejecutando el script pyspark en EMR

Actualmente automatizo mis scripts de Apache Spark Pyspark utilizando grupos de EC2 usando el directorio ./ec2 preconfigurado de Sparks. Para fines de automatización y progtwigción, me gustaría usar el módulo Boto EMR para enviar scripts al clúster. Pude arrancar e instalar Spark en un grupo de EMR. También puedo iniciar una secuencia de comandos en […]

Spark submit (2.3) en el grupo de kubernetes de Python

Así que ahora que k8s está integrado directamente con spark en 2.3, mi envío de spark desde la consola se ejecuta correctamente en un maestro de kuberenetes sin que se ejecuten los pods de spark master, spark maneja todos los detalles de k8s: spark-submit \ –deploy-mode cluster \ –class com.app.myApp \ –master k8s://https://myCluster.com \ –conf […]

¿Cuáles son las diferencias entre sectores y particiones de RDD?

Estoy usando la API de Python de Spark y ejecutando Spark 0.8. Estoy almacenando un RDD grande de vectores de punto flotante y necesito realizar cálculos de un vector contra todo el conjunto. ¿Hay alguna diferencia entre divisiones y particiones en un RDD? Cuando creo el RDD, le paso 100 como un parámetro que hace […]

Lista (o iterador) de tuplas devueltas por MAP (PySpark)

Tengo un método mapeador: def mapper(value): … for key, value in some_list: yield key, value Lo que necesito no está realmente muy lejos del ejemplo ordinario de conteo de palabras, en realidad. Ya tengo un script de trabajo, pero solo si el método del asignador se ve así: def mapper(value): … return key, value Así […]

TakeSolded Pyspark descendente

Me gustaría ordenar los pares K / V por valores y luego tomar los cinco valores más grandes. Logré hacer esto al revertir K / V con el primer mapa, ordenar en orden descendente con FALSO, y luego invertir el valor de clave al original (segundo mapa) y luego tomar los primeros 5 que son […]

Leyendo archivo grande en Spark Issue – Python

He instalado spark en local, con python, y cuando ejecuto el siguiente código: data=sc.textFile(‘C:\\Users\\xxxx\\Desktop\\train.csv’) data.first() Obtuve el siguiente error: ————————————————————————— Py4JJavaError Traceback (most recent call last) in () —-> 1 data.first() C:\Spark\python\pyspark\rdd.pyc in first(self) 1313 ValueError: RDD is empty 1314 “”” -> 1315 rs = self.take(1) 1316 if rs: 1317 return rs[0] C:\Spark\python\pyspark\rdd.pyc in take(self, […]

Cómo reformatear la salida de Spark Python

(u’142578′, (u’The-North-side-9890′, (u’ 12457896′, 45.0))) (u’124578′, (u’The-West-side-9091′, (u’ 14578217′, 0.0))) Esto que obtuve de Unirme a los dos RDD basados ​​en Ids es como (clave, (value_left, value_right)) usando este Spark Join. así que quiero tener salida como The-North-side-9890,12457896,45.0 The-West-side-9091,14578217,0.0 para esto bash con el siguiente código from pyspark import SparkContext sc = SparkContext(“local”, “info”) file1 […]

Problemas al instalar Pyspark

Quiero ejecutar Spark en una máquina local usando pyspark. Desde aquí utilizo los comandos: sbt/sbt assembly $ ./bin/pyspark La instalación se completa, pero pyspark no puede ejecutarse, lo que genera el siguiente error (completo): 138:spark-0.9.1 comp_name$ ./bin/pyspark Python 2.7.6 |Anaconda 1.9.2 (x86_64)| (default, Jan 10 2014, 11:23:15) [GCC 4.0.1 (Apple Inc. build 5493)] on darwin […]