Articles of scala

Simple, sin complicaciones, serialización de placa de cero en Scala / Java similar a Python’s Pickle?

¿Existe un enfoque simple y sin complicaciones para la serialización en Scala / Java que sea similar al pickle de Python? Pickle es una solución simple y bastante razonable que es razonablemente eficiente en espacio y tiempo (es decir, no es abismal) pero no le importa la accesibilidad entre idiomas, el control de versiones, etc. […]

Presentación de múltiples aplicaciones de chispa en modo independiente

Tengo la aplicación de 4 chispas (para encontrar el número de palabras del archivo de texto) que está escrita en 4 idiomas diferentes (R, python, java, scala) ./wordcount.R ./wordcount.py ./wordcount.java ./wordcount.scala spark trabaja en modo independiente … 1.4 nodos de trabajo 2.1 núcleo para cada nodo de trabajador 3.1 gb de memoria para cada nodo […]

¿Cómo llegar hoy? ¿Fecha de “1 día” en Sparksql?

Cómo obtener current_date – 1 día en sparksql, igual que cur_date()-1 en mysql.

Chispa: cuántos ejecutores y núcleos se asignan a mi trabajo de chispa

La architecture de la chispa gira enteramente en torno al concepto de ejecutores y núcleos. Me gustaría ver prácticamente cuántos ejecutores y núcleos se ejecutan en mi clúster. Estaba tratando de usar el siguiente fragmento de código en mi aplicación, pero no tuve suerte. val conf = new SparkConf().setAppName(“ExecutorTestJob”) val sc = new SparkContext(conf) conf.get(“spark.executor.instances”) […]

Análisis de registros multilínea en Scala

Aquí está mi RDD [String] M1 module1 PIP a ZA PIP b ZB PIP c Y n4 M2 module2 PIP a I n4 PIP b OD PIP c O n5 y así. Básicamente, necesito un RDD de clave (que contenga la segunda palabra en la línea 1) y los valores de las siguientes líneas PIP […]

El flujo de air se detiene después del trabajo de Spark enviado por SSH

Estoy usando Apache Airflow independiente para enviar mis trabajos de Spark con SSHExecutorOperator para conectarse al nodo de borde y enviar trabajos con un simple BashCommand . En su mayoría funciona bien, pero a veces algunas tareas aleatorias se ejecutan de forma indefinida. Mi trabajo tiene éxito, pero sigue funcionando de acuerdo con Airflow. Cuando […]

¿Qué función en la chispa se utiliza para combinar dos RDD por teclas?

Digamos que tengo los siguientes dos RDD, con los siguientes valores de par de claves. rdd1 = [ (key1, [value1, value2]), (key2, [value3, value4]) ] y rdd2 = [ (key1, [value5, value6]), (key2, [value7]) ] Ahora, quiero unirlos por valores clave, por ejemplo, quiero devolver lo siguiente ret = [ (key1, [value1, value2, value5, value6]), […]

Filtro basado en otro RDD en Spark.

Me gustaría mantener solo a los empleados que tienen una ID de departamento referenciada en la segunda tabla. Employee table LastName DepartmentID Rafferty 31 Jones 33 Heisenberg 33 Robinson 34 Smith 34 Department table DepartmentID 31 33 He intentado el siguiente código que no funciona: employee = [[‘Raffery’,31], [‘Jones’,33], [‘Heisenberg’,33], [‘Robinson’,34], [‘Smith’,34]] department = [31,33] […]

¿Cómo funciona la función pyspark mapPartitions?

Así que estoy tratando de aprender Spark usando Python (Pyspark). Quiero saber cómo funciona la función mapPartitions . Eso es lo que toma la entrada y la salida que da. No pude encontrar ningún ejemplo adecuado de internet. Digamos que tengo un objeto RDD que contiene listas, como a continuación. [ [1, 2, 3], [3, […]

Interpretando un punto de referencia en C, Clojure, Python, Ruby, Scala y otros

Renuncia Sé que los puntos de referencia artificiales son malos. Pueden mostrar resultados solo para situaciones estrechas muy específicas. No asumo que un idioma sea mejor que el otro debido al banco de estupidez. Sin embargo, me pregunto por qué los resultados son tan diferentes. Por favor vea mis preguntas en la parte inferior. Descripción […]