Articles of spark dataframe

Python / pyspark data frame reorganiza las columnas

Tengo un dataframe en python / pyspark con columnas id time city zip y así sucesivamente …… Ahora agregué un nuevo name columna a este dataframe. Ahora tengo que organizar las columnas de tal manera que la columna del name aparezca después de id Lo he hecho como abajo change_cols = [‘id’, ‘name’] cols = […]

¿Cómo hash PySpark DataFrame para obtener un flotador devuelto?

Digamos que tengo una base de datos de chispa +——–+—–+ | letter|count| +——–+—–+ | a| 2| | b| 2| | c| 1| +——–+—–+ Entonces quise encontrar el medio. Así que lo hice df = df.groupBy().mean(‘letter’) que dan un dataframe +——————+ | avg(letter)| +——————+ |1.6666666666666667| +——————+ ¿Cómo puedo hacer un hash para obtener solo el valor […]

cómo agregar la identificación de la fila en los marcos de datos de pySpark

Tengo un archivo csv; que convierto a DataFrame (df) en pyspark; después de alguna transformación; Quiero agregar una columna en df; que debería ser un ID de fila simple (comenzando desde 0 o 1 hasta N). Convertí df en rdd y uso “zipwithindex”. Convertí resultante rdd de nuevo a df. Este enfoque funciona, pero generó […]

Agregar la sum de la columna como nueva columna en el dataframe de PySpark

Estoy usando PySpark y tengo un dataframe Spark con un montón de columnas numéricas. Quiero agregar una columna que sea la sum de todas las demás columnas. Supongamos que mi dataframe tenía las columnas “a”, “b” y “c”. Sé que puedo hacerlo: df.withColumn(‘total_col’, df.a + df.b + df.c) El problema es que no quiero escribir […]

¿Por qué Apache-Spark – Python es tan lento a nivel local en comparación con los pandas?

Una chispa novato aquí. Recientemente comencé a jugar con chispa en mi máquina local en dos núcleos usando el comando. pyspark –master local [2] Tengo un archivo de texto de 393 Mb que tiene casi un millón de filas. Quería realizar alguna operación de manipulación de datos. Estoy usando las funciones Dataframe integradas de Pyspark […]

Actualización de una columna de dataframe en chispa

En cuanto a la nueva api de marcos de datos de chispa, no está claro si es posible modificar las columnas de marcos de datos. ¿Cómo haría para cambiar un valor en la fila x columna y de un dataframe? En pandas esto sería df.ix[x,y] = new_value Edición: Consolidando lo que se dijo a continuación, […]

Spark RDD a DataFrame python

Estoy tratando de convertir el Spark RDD a un DataFrame. He visto la documentación y el ejemplo donde el esquema se pasa a la función sqlContext.CreateDataFrame(rdd,schema) . Pero tengo 38 columnas o campos y esto boostá aún más. Si doy manualmente el esquema especificando la información de cada campo, será un trabajo muy tedioso. ¿Hay […]

Pyspark: muestra el histogtwig de una columna de dataframe

En el dataframe de pandas, estoy usando el siguiente código para trazar el histogtwig de una columna: my_df.hist(column = ‘field_1’) ¿Hay algo que pueda lograr el mismo objective en el dataframe de pyspark? (Estoy en el cuaderno de Jupyter) ¡Gracias!

Usando UDF ignora la condición cuando

Supongamos que tiene el siguiente DataFrame pyspark: data= [(‘foo’,), (‘123’,), (None,), (‘bar’,)] df = sqlCtx.createDataFrame(data, [“col”]) df.show() #+—-+ #| col| #+—-+ #| foo| #| 123| #|null| #| bar| #+—-+ Los siguientes dos bloques de código deberían hacer lo mismo, es decir, devolver la mayúscula de la columna si no es null . Sin embargo, el […]

Convertir la columna de DataFrame de la chispa a la lista de python

Trabajo en un dataframe con dos columnas, mvv y count. +—+—–+ |mvv|count| +—+—–+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | Me gustaría obtener dos listas que contengan valores mvv y valor de conteo. Algo como mvv = [1,2,3,4] count = [5,9,3,1] Entonces, […]