Articles of scala

Filtro basado en otro RDD en Spark.

Me gustaría mantener solo a los empleados que tienen una ID de departamento referenciada en la segunda tabla. Employee table LastName DepartmentID Rafferty 31 Jones 33 Heisenberg 33 Robinson 34 Smith 34 Department table DepartmentID 31 33 He intentado el siguiente código que no funciona: employee = [[‘Raffery’,31], [‘Jones’,33], [‘Heisenberg’,33], [‘Robinson’,34], [‘Smith’,34]] department = [31,33] […]

¿Cómo funciona la función pyspark mapPartitions?

Así que estoy tratando de aprender Spark usando Python (Pyspark). Quiero saber cómo funciona la función mapPartitions . Eso es lo que toma la entrada y la salida que da. No pude encontrar ningún ejemplo adecuado de internet. Digamos que tengo un objeto RDD que contiene listas, como a continuación. [ [1, 2, 3], [3, […]

Interpretando un punto de referencia en C, Clojure, Python, Ruby, Scala y otros

Renuncia Sé que los puntos de referencia artificiales son malos. Pueden mostrar resultados solo para situaciones estrechas muy específicas. No asumo que un idioma sea mejor que el otro debido al banco de estupidez. Sin embargo, me pregunto por qué los resultados son tan diferentes. Por favor vea mis preguntas en la parte inferior. Descripción […]

Alias ​​de columna después de groupBy in pyspark

Necesito el dataframe resultante en la línea de abajo, para tener un nombre de alias “maxDiff” para la columna max (‘diff’) después de groupBy. Sin embargo, la línea de abajo no hace ningún cambio, ni arroja un error. grpdf = joined_df.groupBy(temp1.datestamp).max(‘diff’).alias(“maxDiff”)

¿Notación de rebanada en Scala?

¿Hay algo similar a la notación de corte en Python en Scala? Creo que esta es realmente una operación útil que debería incorporarse en todos los idiomas.

¿Scala equivalente a los generadores de Python?

¿Es posible implementar en Scala algo equivalente a la statement de yield Python donde recuerda el estado local de la función donde se usa y “produce” el siguiente valor cada vez que se llama? Quería tener algo como esto para convertir una función recursiva en un iterador. Algo así como esto: # this is python […]

Cómo usar una clase Scala dentro de Pyspark

He estado buscando por un tiempo si hay alguna forma de usar una clase Scala en Pyspark , y no he encontrado ninguna documentación ni guía sobre este tema. Digamos que creo una clase simple en Scala que usa algunas bibliotecas de apache-spark , algo como: class SimpleClass(sqlContext: SQLContext, df: DataFrame, column: String) { def […]

¿Scala equivalente de Python echo server / client ejemplo?

Todos los ejemplos de “servidores” en scala utilizan actores, reactores, etc. Alguien me puede mostrar cómo escribir un servidor y cliente de eco simple y muerto, como en el siguiente ejemplo de Python de Servidor y Cliente : # A simple echo server import socket host = ” port = 50000 backlog = 5 size […]

¿Cómo usar Scala UDF en PySpark?

Quiero poder usar una función de Scala como UDF en PySpark package com.test object ScalaPySparkUDFs extends Serializable { def testFunction1(x: Int): Int = { x * 2 } def testUDFFunction1 = udf { x: Int => testFunction1(x) } } Puedo acceder a testFunction1 en PySpark y hacer que devuelva valores: functions = sc._jvm.com.test.ScalaPySparkUDFs functions.testFunction1(10) Lo […]

¿Cuáles son las transformaciones de la chispa que causan un Shuffle?

Tengo problemas para encontrar en la documentación de Spark las operaciones que causan una reproducción aleatoria y una operación que no lo hace. En esta lista, ¿cuáles causan una confusión y cuáles no? Mapa y filtro no lo hace. Sin embargo, no estoy seguro con los demás. map(func) filter(func) flatMap(func) mapPartitions(func) mapPartitionsWithIndex(func) sample(withReplacement, fraction, seed) […]