Articles of spark dataframe

Modo de datos agrupados en (py) Spark

Tengo un DataFrame de chispa con múltiples columnas. Me gustaría agrupar las filas según una columna y luego encontrar el modo de la segunda columna para cada grupo. Trabajando con un DataFrame de pandas, haría algo como esto: rand_values = np.random.randint(max_value, size=num_values).reshape((num_values/2, 2)) rand_values = pd.DataFrame(rand_values, columns=[‘x’, ‘y’]) rand_values[‘x’] = rand_values[‘x’] > max_value/2 rand_values[‘x’] = […]

Pyspark leyó varios archivos csv en un dataframe (¿O RDD?)

Tengo un clúster Spark 2.0.2 que estoy atacando a través de Pyspark a través de Jupyter Notebook. Tengo varios archivos txt delimitados por tuberías (cargados en HDFS, pero también disponibles en un directorio local) que necesito cargar usando spark-csv en tres marcos de datos separados, dependiendo del nombre del archivo. Veo tres enfoques que puedo […]

Elemento de acceso de un vector en un dataframe de chispa (vector de probabilidad de regresión logística)

Entrené un modelo de LogisticRegression en PySpark (paquete ML) y el resultado de la predicción es un DataSrame de PySpark ( cv_predictions ) (ver [1]). La columna de probability (ver [2]) es un tipo de vector (ver [3]). [1] type(cv_predictions_prod) pyspark.sql.dataframe.DataFrame [2] cv_predictions_prod.select(‘probability’).show(10, False) +—————————————-+ |probability | +—————————————-+ |[0.31559134817066054,0.6844086518293395]| |[0.8937864350711228,0.10621356492887715]| |[0.8615878905395029,0.1384121094604972] | |[0.9594427633777901,0.04055723662220989]| |[0.5391547673698157,0.46084523263018434]| |[0.2820729747752462,0.7179270252247538] […]

La mejor manera de obtener el valor máximo en una columna de dataframe Spark

Estoy tratando de descubrir la mejor manera de obtener el mayor valor en una columna de dataframe Spark. Considere el siguiente ejemplo: df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], [“A”, “B”]) df.show() Lo que crea: +—+—+ | A| B| +—+—+ |1.0|4.0| |2.0|5.0| |3.0|6.0| +—+—+ Mi objective es encontrar el mayor valor en la columna […]

Python / pyspark data frame reorganiza las columnas

Tengo un dataframe en python / pyspark con columnas id time city zip y así sucesivamente …… Ahora agregué un nuevo name columna a este dataframe. Ahora tengo que organizar las columnas de tal manera que la columna del name aparezca después de id Lo he hecho como abajo change_cols = [‘id’, ‘name’] cols = […]

¿Cómo hash PySpark DataFrame para obtener un flotador devuelto?

Digamos que tengo una base de datos de chispa +——–+—–+ | letter|count| +——–+—–+ | a| 2| | b| 2| | c| 1| +——–+—–+ Entonces quise encontrar el medio. Así que lo hice df = df.groupBy().mean(‘letter’) que dan un dataframe +——————+ | avg(letter)| +——————+ |1.6666666666666667| +——————+ ¿Cómo puedo hacer un hash para obtener solo el valor […]

cómo agregar la identificación de la fila en los marcos de datos de pySpark

Tengo un archivo csv; que convierto a DataFrame (df) en pyspark; después de alguna transformación; Quiero agregar una columna en df; que debería ser un ID de fila simple (comenzando desde 0 o 1 hasta N). Convertí df en rdd y uso “zipwithindex”. Convertí resultante rdd de nuevo a df. Este enfoque funciona, pero generó […]

Agregar la sum de la columna como nueva columna en el dataframe de PySpark

Estoy usando PySpark y tengo un dataframe Spark con un montón de columnas numéricas. Quiero agregar una columna que sea la sum de todas las demás columnas. Supongamos que mi dataframe tenía las columnas “a”, “b” y “c”. Sé que puedo hacerlo: df.withColumn(‘total_col’, df.a + df.b + df.c) El problema es que no quiero escribir […]

¿Por qué Apache-Spark – Python es tan lento a nivel local en comparación con los pandas?

Una chispa novato aquí. Recientemente comencé a jugar con chispa en mi máquina local en dos núcleos usando el comando. pyspark –master local [2] Tengo un archivo de texto de 393 Mb que tiene casi un millón de filas. Quería realizar alguna operación de manipulación de datos. Estoy usando las funciones Dataframe integradas de Pyspark […]

Actualización de una columna de dataframe en chispa

En cuanto a la nueva api de marcos de datos de chispa, no está claro si es posible modificar las columnas de marcos de datos. ¿Cómo haría para cambiar un valor en la fila x columna y de un dataframe? En pandas esto sería df.ix[x,y] = new_value Edición: Consolidando lo que se dijo a continuación, […]