Articles of rdd

Spark dataframe transformar varias filas en columna

Soy un principiante para encender, y quiero transformarme debajo del dataframe de origen (cargar desde un archivo JSON): +–+—–+—–+ |A |count|major| +–+—–+—–+ | a| 1| m1| | a| 1| m2| | a| 2| m3| | a| 3| m4| | b| 4| m1| | b| 1| m2| | b| 2| m3| | c| 3| m1| | […]

Explicar la funcionalidad agregada en Spark.

Estoy buscando una mejor explicación de la funcionalidad agregada que está disponible a través de spark en python. El ejemplo que tengo es el siguiente (usando pyspark de la versión Spark 1.2.0) sc.parallelize([1,2,3,4]).aggregate( (0, 0), (lambda acc, value: (acc[0] + value, acc[1] + 1)), (lambda acc1, acc2: (acc1[0] + acc2[0], acc1[1] + acc2[1]))) Salida: (10, […]

Filtrado de RDD según la condición y la extracción de datos coincidentes en Spark python

Tengo los datos como, cl_id cn_id cn_value 10004, 77173296 ,390.0 10004, 77173299 ,376.0 10004, 77173300 ,0.0 20005, 77173296 ,0.0 20005, 77173299 ,6.0 2005, 77438800 ,2.0 ID de Cl_id: 10004, 20005 Filtrar por 10004 10004, 77173296 ,390.0 10004, 77173299 ,376.0 Filtrar por 20005 20005, 77173296 ,0.0 20005, 77173299 ,6.0 Ahora quiero el RDD de retorno como, […]

pyspark – Agrupando y calculando datos

Tengo el siguiente archivo csv. Index,Arrival_Time,Creation_Time,x,y,z,User,Model,Device,gt 0,1424696633908,1424696631913248572,-5.958191,0.6880646,8.135345,a,nexus4,nexus4_1,stand 1,1424696633909,1424696631918283972,-5.95224,0.6702118,8.136536,a,nexus4,nexus4_1,stand 2,1424696633918,1424696631923288855,-5.9950867,0.6535491999999999,8.204376,a,nexus4,nexus4_1,stand 3,1424696633919,1424696631928385290,-5.9427185,0.6761626999999999,8.128204,a,nexus4,nexus4_1,stand Tengo que crear un RDD donde USER MODELO Y GT SON CLAVE PRINCIPAL, no sé si tengo que hacerlo usándolos como una tupla. Luego, cuando tengo el campo de clave principal, tengo que calcular AVG, MAX y MIN a partir de ‘x’, ‘y’ y ‘z’. […]

¿Cómo realiza uniones básicas de dos tablas RDD en Spark usando Python?

¿Cómo realizarías uniones básicas en Spark usando python? En R podrías usar merg () para hacer esto. ¿Cuál es la syntax de python on spark para: Unir internamente Izquierda combinación externa Cruzar Con dos tablas (RDD) con una sola columna en cada una que tiene una clave común. RDD(1):(key,U) RDD(2):(key,V) Creo que una unión interna […]

Convertir un RDD a iterable: PySpark?

Tengo un RDD que estoy creando al cargar un archivo de texto y preprocesarlo. No quiero recostackrlo y guardarlo en el disco o en la memoria (datos completos), sino más bien pasarlo a alguna otra función en Python que consume datos uno tras otro es una forma de iterable. ¿Cómo es esto posible? data = […]

Pasando funciones de clase a PySpark RDD

Tengo una clase llamada some_class () en un archivo de Python aquí: /some-folder/app/bin/file.py Lo estoy importando a mi código aquí: /some-folder2/app/code/file2.py Por import sys sys.path.append(‘/some-folder/app/bin’) from file import some_class clss = some_class() Quiero usar la función de esta clase llamada some_function en map of spark sc.parallelize(some_data_iterator).map(lambda x: clss.some_function(x)) Esto me está dando un error: No […]

Chispa de unión de múltiples RDDs

En mi código de cerdo hago esto: all_combined = Union relation1, relation2, relation3, relation4, relation5, relation 6. Quiero hacer lo mismo con chispa. Sin embargo, desafortunadamente, veo que tengo que seguir haciéndolo en pares: first = rdd1.union(rdd2) second = first.union(rdd3) third = second.union(rdd4) # …. and so on ¿Hay un operador sindical que me permita […]

Cálculo de los promedios para cada LLAVE en un RDD por pares (K, V) en Chispa con Python

Quiero compartir esta solución particular de Apache Spark con Python porque la documentación es bastante mala. Quería calcular el valor promedio de los pares K / V (almacenados en un RDD por pares), por KEY. Aquí es cómo se ve la muestra de datos: >>> rdd1.take(10) # Show a small sample. [(u’2013-10-09′, 7.60117302052786), (u’2013-10-10′, 9.322709163346612), […]

Partición RDD en tuplas de longitud n

Soy relativamente nuevo en Apache Spark y Python y me preguntaba si algo como lo que voy a describir es factible. Tengo un RDD de la forma [m 1 , m 2 , m 3 , m 4 , m 5 , m 6 ……. m n ] (esto se obtiene al ejecutar rdd.collect ()). […]