Articles of pyspark

¿Cómo guardar y cargar el modelo MLLib en Apache Spark?

Entrené un modelo de clasificación en Apache Spark (usando pyspark ). Guardé el modelo en un objeto, LogisticRegressionModel . Ahora, quiero hacer predicciones sobre nuevos datos. Me gustaría almacenar el modelo y leerlo nuevamente en un nuevo progtwig para hacer las predicciones. ¿Alguna idea de cómo almacenar el modelo? Estoy pensando en quizás pickle, pero […]

Cómo calcular la sum acumulada usando sqlContext

Sé que podemos usar la función de ventana en pyspark para calcular la sum acumulada. Pero Window solo se admite en HiveContext y no en SQLContext. Necesito usar SQLContext ya que HiveContext no se puede ejecutar en múltiples procesos. ¿Hay alguna manera eficiente de calcular la sum acumulada utilizando SQLContext? Una forma sencilla es cargar […]

java.lang.OutOfMemoryError: no se puede adquirir 100 bytes de memoria, se obtuvo 0

Estoy invocando Pyspark con Spark 2.0 en modo local con el siguiente comando: pyspark –executor-memory 4g –driver-memory 4g El dataframe de entrada se está leyendo desde un archivo tsv y tiene 580 K x 28 columnas. Estoy realizando algunas operaciones en el dataframe y luego trato de exportarlo a un archivo tsv y obtengo este […]

¿Cómo consigo las bibliotecas de Python en pyspark?

Quiero usar las bibliotecas matplotlib.bblpath o shapely.geometry en pyspark. Cuando bash importar alguno de ellos, aparece el siguiente error: >>> from shapely.geometry import polygon Traceback (most recent call last): File “”, line 1, in ImportError: No module named shapely.geometry Sé que el módulo no está presente, pero ¿cómo se pueden llevar estos paquetes a mis […]

¿Cómo pivotar en múltiples columnas en Spark SQL?

Necesito pivotar más de una columna en un dataframe de pyspark. Marco de datos de muestra, >>> d = [(100,1,23,10),(100,2,45,11),(100,3,67,12),(100,4,78,13),(101,1,23,10),(101,2,45,13),(101,3,67,14),(101,4,78,15),(102,1,23,10),(102,2,45,11),(102,3,67,16),(102,4,78,18)] >>> mydf = spark.createDataFrame(d,[‘id’,’day’,’price’,’units’]) >>> mydf.show() +—+—+—–+—–+ | id|day|price|units| +—+—+—–+—–+ |100| 1| 23| 10| |100| 2| 45| 11| |100| 3| 67| 12| |100| 4| 78| 13| |101| 1| 23| 10| |101| 2| 45| 13| |101| […]

No se puede encontrar la función col en pyspark

En pyspark 1.6.2, puedo importar la función col por from pyspark.sql.functions import col pero cuando trato de buscarlo en el código fuente de Github, no encuentro ninguna función col en el archivo functions.py , ¿cómo puede Python importar una función que no existe?

Spark puede acceder a la tabla Hive desde pyspark pero no desde spark-submit

Por lo tanto, cuando se ejecuta desde pyspark yo escribiría (sin especificar ningún contexto): df_openings_latest = sqlContext.sql(‘select * from experian_int_openings_latest_orc’) .. y funciona bien. Sin embargo, cuando ejecuto mi script desde spark-submit , como spark-submit script.py pongo lo siguiente en from pyspark.sql import SQLContext from pyspark import SparkConf, SparkContext conf = SparkConf().setAppName(‘inc_dd_openings’) sc = SparkContext(conf=conf) […]

¿Cómo convertir ArrayType a DenseVector en PySpark DataFrame?

Recibo el siguiente error al intentar construir un Pipeline ML: pyspark.sql.utils.IllegalArgumentException: ‘requirement failed: Column features must be of type org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7 but was actually ArrayType(DoubleType,true).’ La columna Mis features contiene una matriz de valores de punto flotante. Parece que necesito convertirlos en algún tipo de vector (no es escaso, ¿es un DenseVector?). ¿Hay alguna forma de […]

Cálculo de la similitud de coseno entre todas las filas de un dataframe en pyspark

Tengo un conjunto de datos que contiene a los trabajadores con su información demográfica como la edad del sexo, la dirección, etc. y sus ubicaciones de trabajo. Creé un RDD desde el conjunto de datos y lo convertí en un DataFrame. Hay múltiples entradas para cada ID. Por lo tanto, creé un DataFrame que contenía […]

¿Cómo usar las funciones de ventana en PySpark?

Estoy tratando de usar algunas funciones de Windows ( ntile y percentRank ) para un dataframe pero no sé cómo usarlas. ¿Puede alguien ayudarme con esto, por favor? En la documentación de la API de Python no hay ejemplos al respecto. Específicamente, estoy tratando de obtener cuantiles de un campo numérico en mi dataframe. Estoy […]