Articles of rdd

Análisis de registros multilínea en Scala

Aquí está mi RDD [String] M1 module1 PIP a ZA PIP b ZB PIP c Y n4 M2 module2 PIP a I n4 PIP b OD PIP c O n5 y así. Básicamente, necesito un RDD de clave (que contenga la segunda palabra en la línea 1) y los valores de las siguientes líneas PIP […]

¿Cómo aplanar listas anidadas en PySpark?

Tengo una estructura RDD como: rdd = [[[1],[2],[3]], [[4],[5]], [[6]], [[7],[8],[9],[10]]] Y quiero que se convierta en: rdd = [1,2,3,4,5,6,7,8,9,10] ¿Cómo escribo un mapa o función de reducción para que funcione?

Entendiendo treeReduce () en Spark

Puede ver la implementación aquí: https://github.com/apache/spark/blob/ffa05c84fe75663fc33f3d954d1cb1e084ab3280/python/pyspark/rdd.py#L804 ¿En qué se diferencia de la función de reduce ‘normal’? ¿Qué significa depth = 2 ? No quiero que la función del reductor pase linealmente en las particiones, sino que primero reduzca cada uno de los pares disponibles, y luego iteraré así hasta que tenga un solo par y […]

¿Qué función en la chispa se utiliza para combinar dos RDD por teclas?

Digamos que tengo los siguientes dos RDD, con los siguientes valores de par de claves. rdd1 = [ (key1, [value1, value2]), (key2, [value3, value4]) ] y rdd2 = [ (key1, [value5, value6]), (key2, [value7]) ] Ahora, quiero unirlos por valores clave, por ejemplo, quiero devolver lo siguiente ret = [ (key1, [value1, value2, value5, value6]), […]

PySpark – Superposición de tiempo para objeto en RDD

Mi objective es agrupar objetos en función de la superposición de tiempo. Cada objeto en mi rdd contiene un start_time y end_time . Probablemente estoy haciendo esto de manera ineficiente, pero lo que planeo hacer es asignar una identificación de superposición a cada objeto en función de si se ha superpuesto en algún momento con […]

Chispa – Operación RDD anidada

Tengo dos RDD dicen rdd1 = id | created | destroyed | price 1 | 1 | 2 | 10 2 | 1 | 5 | 11 3 | 2 | 3 | 11 4 | 3 | 4 | 12 5 | 3 | 5 | 11 rdd2 = [1,2,3,4,5] # lets call these […]

¿Cómo convertir Spark RDD a dataframe pandas en ipython?

Tengo un RDD y quiero convertirlo en un dataframe pandas . Sé que para convertir y RDD a un dataframe normal podemos hacer df = rdd1.toDF() Pero quiero convertir el RDD a un dataframe pandas y no a un dataframe normal. ¿Cómo puedo hacerlo?

Obtenga el valor máximo para cada clave en un Spark RDD

¿Cuál es la mejor manera de devolver la fila máxima (valor) asociada con cada clave única en un RDD de chispa? Estoy usando python y he probado Math max, mapeando y reduciendo por claves y agregados. ¿Hay una manera eficiente de hacer esto? Posiblemente un UDF? Tengo en formato RDD: [(v, 3), (v, 1), (v, […]

Obteniendo error en Spark: Ejecutor perdido

Tengo un maestro y dos esclavos cada uno con 32 GB de RAM y estoy leyendo un archivo csv con alrededor de 18 millones de registros (la primera fila son los encabezados de las columnas). Este es el comando que estoy usando para ejecutar el trabajo ./spark-submit –master yarn –deploy-mode client –executor-memory 10g Hice lo […]

Spark forma más rápida para crear RDD de matrices numpy

Mi aplicación de chispa está utilizando RDD de matrices numpy. En este momento, estoy leyendo mis datos de AWS S3, y se representa como un archivo de texto simple donde cada línea es un vector y cada elemento está separado por espacio, por ejemplo: 1 2 3 5.1 3.6 2.1 3 0.24 1.333 Estoy usando […]