Articles of scala

Chispa: cuántos ejecutores y núcleos se asignan a mi trabajo de chispa

La architecture de la chispa gira enteramente en torno al concepto de ejecutores y núcleos. Me gustaría ver prácticamente cuántos ejecutores y núcleos se ejecutan en mi clúster. Estaba tratando de usar el siguiente fragmento de código en mi aplicación, pero no tuve suerte. val conf = new SparkConf().setAppName(“ExecutorTestJob”) val sc = new SparkContext(conf) conf.get(“spark.executor.instances”) […]

Análisis de registros multilínea en Scala

Aquí está mi RDD [String] M1 module1 PIP a ZA PIP b ZB PIP c Y n4 M2 module2 PIP a I n4 PIP b OD PIP c O n5 y así. Básicamente, necesito un RDD de clave (que contenga la segunda palabra en la línea 1) y los valores de las siguientes líneas PIP […]

El flujo de air se detiene después del trabajo de Spark enviado por SSH

Estoy usando Apache Airflow independiente para enviar mis trabajos de Spark con SSHExecutorOperator para conectarse al nodo de borde y enviar trabajos con un simple BashCommand . En su mayoría funciona bien, pero a veces algunas tareas aleatorias se ejecutan de forma indefinida. Mi trabajo tiene éxito, pero sigue funcionando de acuerdo con Airflow. Cuando […]

¿Qué función en la chispa se utiliza para combinar dos RDD por teclas?

Digamos que tengo los siguientes dos RDD, con los siguientes valores de par de claves. rdd1 = [ (key1, [value1, value2]), (key2, [value3, value4]) ] y rdd2 = [ (key1, [value5, value6]), (key2, [value7]) ] Ahora, quiero unirlos por valores clave, por ejemplo, quiero devolver lo siguiente ret = [ (key1, [value1, value2, value5, value6]), […]

Filtro basado en otro RDD en Spark.

Me gustaría mantener solo a los empleados que tienen una ID de departamento referenciada en la segunda tabla. Employee table LastName DepartmentID Rafferty 31 Jones 33 Heisenberg 33 Robinson 34 Smith 34 Department table DepartmentID 31 33 He intentado el siguiente código que no funciona: employee = [[‘Raffery’,31], [‘Jones’,33], [‘Heisenberg’,33], [‘Robinson’,34], [‘Smith’,34]] department = [31,33] […]

¿Cómo funciona la función pyspark mapPartitions?

Así que estoy tratando de aprender Spark usando Python (Pyspark). Quiero saber cómo funciona la función mapPartitions . Eso es lo que toma la entrada y la salida que da. No pude encontrar ningún ejemplo adecuado de internet. Digamos que tengo un objeto RDD que contiene listas, como a continuación. [ [1, 2, 3], [3, […]

Interpretando un punto de referencia en C, Clojure, Python, Ruby, Scala y otros

Renuncia Sé que los puntos de referencia artificiales son malos. Pueden mostrar resultados solo para situaciones estrechas muy específicas. No asumo que un idioma sea mejor que el otro debido al banco de estupidez. Sin embargo, me pregunto por qué los resultados son tan diferentes. Por favor vea mis preguntas en la parte inferior. Descripción […]

Alias ​​de columna después de groupBy in pyspark

Necesito el dataframe resultante en la línea de abajo, para tener un nombre de alias “maxDiff” para la columna max (‘diff’) después de groupBy. Sin embargo, la línea de abajo no hace ningún cambio, ni arroja un error. grpdf = joined_df.groupBy(temp1.datestamp).max(‘diff’).alias(“maxDiff”)

¿Notación de rebanada en Scala?

¿Hay algo similar a la notación de corte en Python en Scala? Creo que esta es realmente una operación útil que debería incorporarse en todos los idiomas.

¿Scala equivalente a los generadores de Python?

¿Es posible implementar en Scala algo equivalente a la statement de yield Python donde recuerda el estado local de la función donde se usa y “produce” el siguiente valor cada vez que se llama? Quería tener algo como esto para convertir una función recursiva en un iterador. Algo así como esto: # this is python […]