Articles of pyspark

¿Cómo agruparByKey un RDD, con DenseVector como clave, en Spark?

He creado un RDD con cada miembro siendo un par de valores clave, siendo la clave un DenseVector y un valor un int . p.ej [(DenseVector([3,4]),10), (DenseVector([3,4]),20)] Ahora quiero agrupar por la clave k1 : DenseVector([3,4]) . Espero que el comportamiento agrupe todos los valores de la clave k1 que son 10 y 20 . […]

Dividir un diccionario en un dataframe Pyspark en columnas individuales

Tengo un dataframe (en Pyspark) que tiene uno de los valores de la fila como un diccionario: df.show() Y se parece a +—-+—+—————————–+ |name|age|info | +—-+—+—————————–+ |rob |26 |{color: red, car: volkswagen}| |evan|25 |{color: blue, car: mazda} | +—-+—+—————————–+ Basado en los comentarios para dar más: df.printSchema() Los tipos son cuerdas root |– name: string […]

Cómo ejecutar un archivo .sql en spark usando python

from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext conf = SparkConf().setAppName(“Test”).set(“spark.driver.memory”, “1g”) sc = SparkContext(conf = conf) sqlContext = SQLContext(sc) results = sqlContext.sql(“/home/ubuntu/workload/queryXX.sql”) Cuando ejecuto este comando usando: python test.py me da un error . y4j.protocol.Py4JJavaError: Se produjo un error al llamar a o20.sql. : java.lang.RuntimeException: [1.1] error: “ con ” esperado pero `/ […]

Spark ML Pipeline Causes java.lang.Exception: no se compiló … El código … crece más allá de 64 KB

Utilizando Spark 2.0, estoy tratando de ejecutar un VectorAssembler simple en un pipeline de pyspark ML, de esta manera: feature_assembler = VectorAssembler(inputCols=[‘category_count’, ‘name_count’], \ outputCol=”features”) pipeline = Pipeline(stages=[feature_assembler]) model = pipeline.fit(df_train) model_output = model.transform(df_train) Cuando trato de mirar la salida usando model_output.select(“features”).show(1) Me sale el error Py4JJavaError Traceback (most recent call last) in () 2 […]

El archivo .py de importación de Pyspark no funciona

Mi objective es importar un archivo .py personalizado a mi aplicación de chispa y llamar a algunas de las funciones incluidas dentro de ese archivo Esto es lo que intenté: Tengo un archivo de prueba llamado Test.py que tiene el siguiente aspecto: def func(): print “Import is working” Dentro de mi aplicación Spark hago lo […]

Apache Spark lanza NullPointerException cuando encuentra una característica faltante

Tengo un problema extraño con PySpark al indexar la columna de cadenas en las características. Aquí está mi archivo tmp.csv: x0,x1,x2,x3 asd2s,1e1e,1.1,0 asd2s,1e1e,0.1,0 ,1e3e,1.2,0 bd34t,1e1e,5.1,1 asd2s,1e3e,0.2,0 bd34t,1e2e,4.3,1 donde tengo un valor faltante para ‘x0’. Al principio, estoy leyendo las características del archivo csv en DataFrame usando pyspark_csv: https://github.com/seahboonsiew/pyspark-csv y luego indexando x0 con StringIndexer: import […]

chispa – Convertir el dataframe a la lista mejorando el rendimiento

Necesito convertir una columna de la ttwig de datos de Spark en la lista para usarla más adelante para matplotlib df.toPandas()[col_name].values.tolist() Parece que hay una sobrecarga de alto rendimiento. Esta operación toma alrededor de 18 segundos. ¿Hay alguna otra forma de hacer eso o mejorar el rendimiento?

Agregar una nueva columna en el Marco de datos derivado de otras columnas (Spark)

Estoy usando Spark 1.3.0 y Python. Tengo un dataframe y deseo agregar una columna adicional que se deriva de otras columnas. Me gusta esto, >>old_df.columns [col_1, col_2, …, col_m] >>new_df.columns [col_1, col_2, …, col_m, col_n] dónde col_n = col_3 – col_4 ¿Cómo hago esto en PySpark?

Dataframe pyspark a dict

Tengo este dataframe path_df: path_df.show() +—————+————-+—-+ |FromComponentID|ToComponentID|Cost| +—————+————-+—-+ | 160| 163|27.0| | 160| 183|27.0| | 161| 162|22.0| | 161| 170|31.0| | 162| 161|22.0| | 162| 167|24.0| | 163| 160|27.0| | 163| 164|27.0| | 164| 163|27.0| | 164| 165|35.0| | 165| 164|35.0| | 165| 166|33.0| | 166| 165|33.0| | 166| 167|31.0| | 167| 162|24.0| | 167| […]

Jupyter pyspark: ningún módulo llamado pyspark

Google está literalmente lleno de soluciones a este problema, pero desafortunadamente, incluso después de probar todas las posibilidades, no puedo hacer que funcione, así que, por favor, aguanten conmigo y vean si algo les sorprende. OS: MAC Chispa: 1.6.3 (2.10) Cuaderno Jupyter: 4.4.0 Python: 2.7 Scala: 2.12.1 Pude instalar y ejecutar con éxito el portátil […]