Articles of rdd

PySpark – Superposición de tiempo para objeto en RDD

Mi objective es agrupar objetos en función de la superposición de tiempo. Cada objeto en mi rdd contiene un start_time y end_time . Probablemente estoy haciendo esto de manera ineficiente, pero lo que planeo hacer es asignar una identificación de superposición a cada objeto en función de si se ha superpuesto en algún momento con […]

Chispa – Operación RDD anidada

Tengo dos RDD dicen rdd1 = id | created | destroyed | price 1 | 1 | 2 | 10 2 | 1 | 5 | 11 3 | 2 | 3 | 11 4 | 3 | 4 | 12 5 | 3 | 5 | 11 rdd2 = [1,2,3,4,5] # lets call these […]

¿Cómo convertir Spark RDD a dataframe pandas en ipython?

Tengo un RDD y quiero convertirlo en un dataframe pandas . Sé que para convertir y RDD a un dataframe normal podemos hacer df = rdd1.toDF() Pero quiero convertir el RDD a un dataframe pandas y no a un dataframe normal. ¿Cómo puedo hacerlo?

Obtenga el valor máximo para cada clave en un Spark RDD

¿Cuál es la mejor manera de devolver la fila máxima (valor) asociada con cada clave única en un RDD de chispa? Estoy usando python y he probado Math max, mapeando y reduciendo por claves y agregados. ¿Hay una manera eficiente de hacer esto? Posiblemente un UDF? Tengo en formato RDD: [(v, 3), (v, 1), (v, […]

Obteniendo error en Spark: Ejecutor perdido

Tengo un maestro y dos esclavos cada uno con 32 GB de RAM y estoy leyendo un archivo csv con alrededor de 18 millones de registros (la primera fila son los encabezados de las columnas). Este es el comando que estoy usando para ejecutar el trabajo ./spark-submit –master yarn –deploy-mode client –executor-memory 10g Hice lo […]

Spark forma más rápida para crear RDD de matrices numpy

Mi aplicación de chispa está utilizando RDD de matrices numpy. En este momento, estoy leyendo mis datos de AWS S3, y se representa como un archivo de texto simple donde cada línea es un vector y cada elemento está separado por espacio, por ejemplo: 1 2 3 5.1 3.6 2.1 3 0.24 1.333 Estoy usando […]

Spark dataframe transformar varias filas en columna

Soy un principiante para encender, y quiero transformarme debajo del dataframe de origen (cargar desde un archivo JSON): +–+—–+—–+ |A |count|major| +–+—–+—–+ | a| 1| m1| | a| 1| m2| | a| 2| m3| | a| 3| m4| | b| 4| m1| | b| 1| m2| | b| 2| m3| | c| 3| m1| | […]

Explicar la funcionalidad agregada en Spark.

Estoy buscando una mejor explicación de la funcionalidad agregada que está disponible a través de spark en python. El ejemplo que tengo es el siguiente (usando pyspark de la versión Spark 1.2.0) sc.parallelize([1,2,3,4]).aggregate( (0, 0), (lambda acc, value: (acc[0] + value, acc[1] + 1)), (lambda acc1, acc2: (acc1[0] + acc2[0], acc1[1] + acc2[1]))) Salida: (10, […]

Filtrado de RDD según la condición y la extracción de datos coincidentes en Spark python

Tengo los datos como, cl_id cn_id cn_value 10004, 77173296 ,390.0 10004, 77173299 ,376.0 10004, 77173300 ,0.0 20005, 77173296 ,0.0 20005, 77173299 ,6.0 2005, 77438800 ,2.0 ID de Cl_id: 10004, 20005 Filtrar por 10004 10004, 77173296 ,390.0 10004, 77173299 ,376.0 Filtrar por 20005 20005, 77173296 ,0.0 20005, 77173299 ,6.0 Ahora quiero el RDD de retorno como, […]

pyspark – Agrupando y calculando datos

Tengo el siguiente archivo csv. Index,Arrival_Time,Creation_Time,x,y,z,User,Model,Device,gt 0,1424696633908,1424696631913248572,-5.958191,0.6880646,8.135345,a,nexus4,nexus4_1,stand 1,1424696633909,1424696631918283972,-5.95224,0.6702118,8.136536,a,nexus4,nexus4_1,stand 2,1424696633918,1424696631923288855,-5.9950867,0.6535491999999999,8.204376,a,nexus4,nexus4_1,stand 3,1424696633919,1424696631928385290,-5.9427185,0.6761626999999999,8.128204,a,nexus4,nexus4_1,stand Tengo que crear un RDD donde USER MODELO Y GT SON CLAVE PRINCIPAL, no sé si tengo que hacerlo usándolos como una tupla. Luego, cuando tengo el campo de clave principal, tengo que calcular AVG, MAX y MIN a partir de ‘x’, ‘y’ y ‘z’. […]